Написал инструкцию, как я преобразовываю *.sub в *.srt:
Инструкция преобразования файлов *.sub в *.srt файлы (для японского текста):
1. Скачать доработанную прогу SubOcr (
http://kitsunekko.net/files/SubOcr_a1.zip (Нужен .NET 2.0 (
http://www.microsoft.com/downloads/deta ... B15C5E04F5 ))), которую сделал
kitsunekko (за что ему просто громадное спасибо!).
2. Запустить эту прогу. Порядок действий: открыть субтитры (нажать "Open SUB" и выбрать файл *.idx); нажать "Save TIFF"; в папке с субтитрами должен появиться многостраничный файл *.tif.
3. Скачать прогу e_Typist (триал-версия 12 - et12_try.exe - ).
4. Скачать файл, который убирает триальность (e[1].typist.v12-patch.rar ).
Открыть этот архив, запустить e.typist.v12-patch.ехе, нажать на первую левую кнопку, указать путь к экзешнику триальной версии e_Typist.exe.
5. Запустить eTypist (лучше запускать через прогу Microsoft AppLocale, чтобы не было вопросиков вместо иероглифов в меню).
Порядок действий в этой проге:
- нажать большую левую кнопку с изображением папки;
- выбрать полученный файл *.tif, в следующем окошке можно указать какие страницы файла *.tif открывать: либо все (первая строчка), либо можно указать с какой по какую страницы открывать (вторая строчка);
- после этого необходимо выделить все открытые файлы (если в нижней части поля проги eTypist нет окна со списком файлов, то необходимо щелкнуть правой кнопкой мыши на поле слева от большой кнопки с надписью "Word", изображающей иконку Word'а, и выбрать третью строчку - "Список картинок (L)", появиться окно со списком файлов, на первой вкладке этого окна файлы с просмотром, необходимо выделить все эти файлы);
- затем нажать на вторую большую кнопку сверху справа от кнопки выбора файлов ("Выделение области распознавания");
- после того как на всех файлах зеленым прямоугольником выделиться область распознавания, нажать на следующую большую кнопку - "Распознать текст";
- затем после распознавания нажать на четвертую большую кнопку с изображением дискетки - "Сохранение файла" - в открывшемся окне в поле "Тип файла" выбрать первую строчку ("текстовый файл (*.txt)" и сохранить) - получили скрипт.
6. Открыть полученный скрипт *.txt в SubOcr_a1 (нажать "Open script" и выбрать *.txt - в правой части в окошке "Raw Script" должен появиться наш скрипт, а в левом окне "Subpictures" должны остаться первоначально открытые субтитры); нажать "Synk script"; после того как прога подумает, нажать "Save SRT" и сохранить srt-файл - получили srt-субтитры.
7. Теперь необходимо этот srt-файл проверить на ошибки и удалить ненужный мусор.
ПРИМЕЧАНИЕ: e.typist.v12 может распознавать текст с фуриганой, но делает это очень плохо (хотя это зависит, наверное, от качества текста самой фуриганы). Можно отключить распознавание фуриганы, чтобы потом не нужно было в srt-файле удалять эти неправильные строки - после открытия файла *.tif и перед нажатием на кнопку выделения области распознавания нажать на восьмую маленькую кнопку (на ней нарисованы знаки катаканы: ру и би), которая расположена под большой кнопкой с изображением дискетки и выбрать первую строчку (на иконке появиться красная галочка), теперь при выделении области распознавания в файлах прога зеленым прямоугольником не будет захватывать область с фуриганой (правда если фуригана только в верхней области).
Также в e.typist.v12 при открытии файла *.tif открывается только 500 страниц (видимо стоит какое-то ограничение - в настройках не нашел как его отключить), поэтому если в файле *.tif больше 500 страниц, то необходимо в связи с этим ограничением проходить все действия для каждых 500 страниц при создании скрипта. При открытии файла *.tif, если в нем больше 500 страниц, то откроются только первые 500. Создаем их скрипт. Затем снова открывает этот файл *.tif и в окошке ставим галочку на второй строчке и пишем следующие страницы, например 501-1000. Также можно разбить файл *.tif на отдельные страницы: я делал черег прогу IrfanView 3.85 - в ней открыть файл *.tif, во вкладке "View" в меню "Multipage Images" выбрать "Extract All Pages as BMPs", выбрать папку и сохранить. Тогда в проге e.typist.v12 нужно открывать не файл *.tif, а выделить необходимое количество файлов BMP и открыть их.
НО для того, чтобы в конечный srt-файл вставить все строки, то придется создавать файл скрипта по частям: сначала первые 500 строк (страниц файла *.tif), затем вторые и т.д. Потом все это скопировать по-порядку в общий файл-скрипта (*.txt) и уже его открывать через SubOcr_a1.
В e.typist10 аналогичная картина: больше 500 картинок не может открыть.
НО e.typist10 при открывании файла *.tif не выдает окошко, в котором можно выбрать с какой по какую картинку открывать, он сразу начинает открывать страницы и останавливается на 500, так что если в файле *.tif больше 500 страниц, то для e.typist10 его надо разбивать на BMP и открывать последующие страницы как эти BMP. После распознавания одного и того же файла с субтитрами в e.typist10 и в e.typist12, как мне показалось, e.typist10 делает меньше ошибок (хотя надо еще потестить).
Полезные ссылки:
http://www.bolden.ru/content/view/48/11/lang,ru/ - обзор проги eTypist12 с описанием кнопок и пример распознавания текста.
P.S. Ради прикола решил засечь сколько по времени занимает преобразование файла. Взял sub-сабы к одной серии дорамы, в которой 563 строк текста, и преобразовал их в srt-файл.
Сама конвертация заняла где-то минут 10 (учитывая то, что пришлось создавать два файла скрипта: один - для первых 500 строк, второй - для последующих 63, и копированием их в один файл).
Последующая проверка и корректировка ошибок srt-файла заняла минут 20 (т. к. ошибок распознавания практически нет).
Распознавал в e.typist10.
Таким образом за какие-то полчаса готовы srt-сабы.
P.P.S. Правда kitsunekko говорит, что прога SubOcr глючная и "она может молча вытянуть только половину субтитров (без сообщений об ошибке). Если палитра sub-файла не совпадает со стандартной, нормальный tiff-файл не получится. и.т.д".
Я пробовал конвертировать *.sub файлы от двух разных дорам - проблем замечено не было.