Тренировочный тессеракт 4 с изображениями вместо шрифта - PullRequest
0 голосов
/ 28 июня 2018

У меня есть несколько вопросов о создании файлов tiff / box для tesseract 4. В приложении TrainingTesseract 4.00 написано:

Создание коробочных файлов Как и в случае с базовым Tesseract, существует выбор визуализация синтетических обучающих данных из шрифтов или маркировка некоторых ранее существующие изображения (например, древние рукописи).

Но это не объясняло, как тренироваться с уже существующими изображениями.

Я хочу обучаться персидскому языку в тессеракте 4 (lstm). У меня есть несколько изображений из древних рукописей, и я хочу тренироваться с изображениями и текстами вместо шрифта. Поэтому я не могу использовать команду text2image. Я знаю, что старые файлы формата box не будут работать для обучения LSTM.

  1. Как я могу сделать tif / box для tessearct 4 lstm, затем пометить их и как изменить команды тессеракта?
  2. Должен ли я использовать другие инструменты для создания файлов коробок (учитывая, что язык справа налево)?
  3. Должен ли я использовать точную настройку или поезд с нуля?

1 Ответ

0 голосов
/ 23 августа 2018

Я боролся так же, как и вы, пока не нашел этот репозиторий github: https://github.com/OCR-D/ocrd-train

Это сделает вашу жизнь супер легкой. Все, что вам нужно сделать, это поместить ваши изображения в формат tif, и ваш текст должен иметь то же имя изображения с расширением .gt.txt. Он позаботится обо всем остальном для вас. (вам может потребоваться обновить Makefile в соответствии с вашим локальным компьютером)

Тренироваться ли с нуля или точно, зависит от вашего языка, данных и проблемы, которую вы пытаетесь решить. Мне нужна точная настройка, потому что я доволен текущей производительностью, но мне нужно добавить ее.

Все полезные детали, которые могут вам понадобиться, можно найти в этом ответе

.
...