Как сгенерировать lstmf из файлов .box и .tif в обучении альфа-lstm tesseract 5 - PullRequest
0 голосов
/ 04 марта 2020

Я использую текущую альфа-версию 5 tesseract. В настоящее время я пытаюсь тренироваться, используя изображения без файлов шрифтов. Мне удалось сгенерировать коробочные файлы из изображения, используя следующую команду:

tesseract image.tif imagebox -l ara wordstrbox

После этого шага я буду исправлять ошибки в OCR. Тогда мне нужно преобразовать файл box и tif в файл .lstmf.

Я не могу найти никаких указаний о том, как я могу это сделать. Все, что там есть: Учебная документация OCR

Учебные данные предоставляются через файлы .lstmf, которые являются сериализованными DocumentData. Они содержат изображение и соответствующую текстовую транскрипцию UTF8, и может быть сгенерирован из пар файлов tif / box с использованием Tesseract аналогично тому, как файлы .tr были созданы для старого механизма. этот этап.

Спасибо,

1 Ответ

0 голосов
/ 08 марта 2020

Нашел,

tesseract image.tif training --psm 6 lstm.train

, но имя файла ящика должно совпадать с именем файла изображения.

...