Распознавание японских субтитров из графического формата

Ответить
Ineshka
Сообщения: 2
Зарегистрирован: Сб фев 02, 2008 8:28 pm

Распознавание японских субтитров из графического формата

Сообщение Ineshka »

Подскажите, есть ли способ распознавания японских субтитров в текстовый формат из графического формата idx/sub?
timur
Site Admin
Сообщения: 394
Зарегистрирован: Сб мар 10, 2007 8:41 pm

Re: Распознавание японских субтитров из графического формата

Сообщение timur »

Ineshka писал(а):Подскажите, есть ли способ распознавания японских субтитров в текстовый формат из графического формата idx/sub?
Специальная прога для распознавания именно ЯПОНСКИХ субтитров мне не известна.
Но Subrip'ом когда-то получалось. Качество распознавания конечно очень посредственное, к тому же это долго.
Можете почитать также информацию отсюда:
http://www.d-addicts.com/forum/viewtopic.php?t=16017

С другой стороны если ваши намерения в отношении японского серьезны, то имеет смысл набрать весь текст вручную - особенно если вы владеете слепым 10-пальцевым методом. При таком варианте очень полезно текст вслух проговаривать.
Ineshka
Сообщения: 2
Зарегистрирован: Сб фев 02, 2008 8:28 pm

Сообщение Ineshka »

Спасибо за информацию и совет, я действительно попробую набрать текст вручную, будет полезнее.
timur
Site Admin
Сообщения: 394
Зарегистрирован: Сб мар 10, 2007 8:41 pm

Сообщение timur »

Ineshka писал(а):Спасибо за информацию и совет, я действительно попробую набрать текст вручную, будет полезнее.
В этом случае напишу, как я обычно делаю в таких случаях:

Скачиваете программу SubRip.
Рекомендую пользоваться версией SubRip 1.40 Beta 3 (= Final) ее можно скачать с сайта разработчика http://zuggy.wz.cz/ (слева выбрать раздел DVD)

Запускаете ее, в ней открываете файл idx (File – Open VOB(s) – Open IFO).
Выбираете нужный язык в разделе «Language stream». В разделе Action справа выбираете «Save SubPictures As BMP». Кликаете «Start». Выбираете желаемое имя файлов BMP и путь, куда они будут сохраняться. Кликаете «Save». В появившемся окне выбираете «l-Author». Кликаете «Ok». Программа начинает синтезировать BMP файлы по количеству субтитров. Прилежно ждем.
После этого в окне внизу выбираем Output Format – Set Output Format. Выбираем Text Formats – SubRip (*.srt). Жмем Convert to this Format. Программа повозмущается, что, мол, нехорошо сохранять в текстовом формате, но мы жмем Ok. Затем выбираем File – Save As. Затем нажимаем в том же окне внизу кнопку «Save» и выбираем нужное имя и путь к окончательному файлу с таймингом в формате srt. Собственно он-то нам и нужен.
Затем я предпочитаю поступать следующим образом. В одном окне открываю файл srt в редакторе Word, в другом – самый первый файл BMP с помощью стандартного Windows picture and Fax Viewer. Располагаю окна друг под другом. Окно с файлом BMP можно сильно сжать. И можно начинать работать с файлом srt – или впечатывать туда японский текст, или перевод – если вы после просмотра фильма решили его перевести. Один субтитр обработали – кликаете по окну с BMP-файлом, стрелочкой «вниз» переходим к следующему и т.д.
Если будете создавать японские субтитры в формате srt – обязательно присылайте! :)
SaGUITARiuS
Сообщения: 1
Зарегистрирован: Пн янв 05, 2009 8:36 pm

Сообщение SaGUITARiuS »

Написал инструкцию, как я преобразовываю *.sub в *.srt:

Инструкция преобразования файлов *.sub в *.srt файлы (для японского текста):

1. Скачать доработанную прогу SubOcr ( http://kitsunekko.net/files/SubOcr_a1.zip (Нужен .NET 2.0 ( http://www.microsoft.com/downloads/deta ... B15C5E04F5 ))), которую сделал kitsunekko (за что ему просто громадное спасибо!).
2. Запустить эту прогу. Порядок действий: открыть субтитры (нажать "Open SUB" и выбрать файл *.idx); нажать "Save TIFF"; в папке с субтитрами должен появиться многостраничный файл *.tif.
3. Скачать прогу e_Typist (триал-версия 12 - et12_try.exe - ).
4. Скачать файл, который убирает триальность (e[1].typist.v12-patch.rar ).
Открыть этот архив, запустить e.typist.v12-patch.ехе, нажать на первую левую кнопку, указать путь к экзешнику триальной версии e_Typist.exe.
5. Запустить eTypist (лучше запускать через прогу Microsoft AppLocale, чтобы не было вопросиков вместо иероглифов в меню).
Порядок действий в этой проге:
- нажать большую левую кнопку с изображением папки;
- выбрать полученный файл *.tif, в следующем окошке можно указать какие страницы файла *.tif открывать: либо все (первая строчка), либо можно указать с какой по какую страницы открывать (вторая строчка);
- после этого необходимо выделить все открытые файлы (если в нижней части поля проги eTypist нет окна со списком файлов, то необходимо щелкнуть правой кнопкой мыши на поле слева от большой кнопки с надписью "Word", изображающей иконку Word'а, и выбрать третью строчку - "Список картинок (L)", появиться окно со списком файлов, на первой вкладке этого окна файлы с просмотром, необходимо выделить все эти файлы);
- затем нажать на вторую большую кнопку сверху справа от кнопки выбора файлов ("Выделение области распознавания");
- после того как на всех файлах зеленым прямоугольником выделиться область распознавания, нажать на следующую большую кнопку - "Распознать текст";
- затем после распознавания нажать на четвертую большую кнопку с изображением дискетки - "Сохранение файла" - в открывшемся окне в поле "Тип файла" выбрать первую строчку ("текстовый файл (*.txt)" и сохранить) - получили скрипт.
6. Открыть полученный скрипт *.txt в SubOcr_a1 (нажать "Open script" и выбрать *.txt - в правой части в окошке "Raw Script" должен появиться наш скрипт, а в левом окне "Subpictures" должны остаться первоначально открытые субтитры); нажать "Synk script"; после того как прога подумает, нажать "Save SRT" и сохранить srt-файл - получили srt-субтитры.
7. Теперь необходимо этот srt-файл проверить на ошибки и удалить ненужный мусор.

ПРИМЕЧАНИЕ: e.typist.v12 может распознавать текст с фуриганой, но делает это очень плохо (хотя это зависит, наверное, от качества текста самой фуриганы). Можно отключить распознавание фуриганы, чтобы потом не нужно было в srt-файле удалять эти неправильные строки - после открытия файла *.tif и перед нажатием на кнопку выделения области распознавания нажать на восьмую маленькую кнопку (на ней нарисованы знаки катаканы: ру и би), которая расположена под большой кнопкой с изображением дискетки и выбрать первую строчку (на иконке появиться красная галочка), теперь при выделении области распознавания в файлах прога зеленым прямоугольником не будет захватывать область с фуриганой (правда если фуригана только в верхней области).
Также в e.typist.v12 при открытии файла *.tif открывается только 500 страниц (видимо стоит какое-то ограничение - в настройках не нашел как его отключить), поэтому если в файле *.tif больше 500 страниц, то необходимо в связи с этим ограничением проходить все действия для каждых 500 страниц при создании скрипта. При открытии файла *.tif, если в нем больше 500 страниц, то откроются только первые 500. Создаем их скрипт. Затем снова открывает этот файл *.tif и в окошке ставим галочку на второй строчке и пишем следующие страницы, например 501-1000. Также можно разбить файл *.tif на отдельные страницы: я делал черег прогу IrfanView 3.85 - в ней открыть файл *.tif, во вкладке "View" в меню "Multipage Images" выбрать "Extract All Pages as BMPs", выбрать папку и сохранить. Тогда в проге e.typist.v12 нужно открывать не файл *.tif, а выделить необходимое количество файлов BMP и открыть их. НО для того, чтобы в конечный srt-файл вставить все строки, то придется создавать файл скрипта по частям: сначала первые 500 строк (страниц файла *.tif), затем вторые и т.д. Потом все это скопировать по-порядку в общий файл-скрипта (*.txt) и уже его открывать через SubOcr_a1.
В e.typist10 аналогичная картина: больше 500 картинок не может открыть. НО e.typist10 при открывании файла *.tif не выдает окошко, в котором можно выбрать с какой по какую картинку открывать, он сразу начинает открывать страницы и останавливается на 500, так что если в файле *.tif больше 500 страниц, то для e.typist10 его надо разбивать на BMP и открывать последующие страницы как эти BMP. После распознавания одного и того же файла с субтитрами в e.typist10 и в e.typist12, как мне показалось, e.typist10 делает меньше ошибок (хотя надо еще потестить).

Полезные ссылки:
http://www.bolden.ru/content/view/48/11/lang,ru/ - обзор проги eTypist12 с описанием кнопок и пример распознавания текста.

P.S. Ради прикола решил засечь сколько по времени занимает преобразование файла. Взял sub-сабы к одной серии дорамы, в которой 563 строк текста, и преобразовал их в srt-файл.
Сама конвертация заняла где-то минут 10 (учитывая то, что пришлось создавать два файла скрипта: один - для первых 500 строк, второй - для последующих 63, и копированием их в один файл).
Последующая проверка и корректировка ошибок srt-файла заняла минут 20 (т. к. ошибок распознавания практически нет).
Распознавал в e.typist10.
Таким образом за какие-то полчаса готовы srt-сабы.

P.P.S. Правда kitsunekko говорит, что прога SubOcr глючная и "она может молча вытянуть только половину субтитров (без сообщений об ошибке). Если палитра sub-файла не совпадает со стандартной, нормальный tiff-файл не получится. и.т.д".
Я пробовал конвертировать *.sub файлы от двух разных дорам - проблем замечено не было.
Ответить

Вернуться в «Фильмы с субтитрами»