Я использую текущую альфа-версию 5 tesseract. В настоящее время я пытаюсь тренироваться, используя изображения без файлов шрифтов. Мне удалось сгенерировать коробочные файлы из изображения, используя следующую команду:
tesseract image.tif imagebox -l ara wordstrbox
После этого шага я буду исправлять ошибки в OCR. Тогда мне нужно преобразовать файл box и tif в файл .lstmf.
Я не могу найти никаких указаний о том, как я могу это сделать. Все, что там есть: Учебная документация OCR
Учебные данные предоставляются через файлы .lstmf, которые являются сериализованными DocumentData. Они содержат изображение и соответствующую текстовую транскрипцию UTF8, и может быть сгенерирован из пар файлов tif / box с использованием Tesseract аналогично тому, как файлы .tr были созданы для старого механизма. этот этап.
Спасибо,