Question

Я использую текущую альфа-версию 5 tesseract. В настоящее время я пытаюсь тренироваться, используя изображения без файлов шрифтов. Мне удалось сгенерировать коробочные файлы из изображения, используя следующую команду:

tesseract image.tif imagebox -l ara wordstrbox

После этого шага я буду исправлять ошибки в OCR. Тогда мне нужно преобразовать файл box и tif в файл .lstmf.

Я не могу найти никаких указаний о том, как я могу это сделать. Все, что там есть: Учебная документация OCR

Учебные данные предоставляются через файлы .lstmf, которые являются сериализованными DocumentData. Они содержат изображение и соответствующую текстовую транскрипцию UTF8, и может быть сгенерирован из пар файлов tif / box с использованием Tesseract аналогично тому, как файлы .tr были созданы для старого механизма. этот этап.

Спасибо,

Abdallah Nasir · Answer 1 · 08 марта 2020

Нашел,

tesseract image.tif training --psm 6 lstm.train

, но имя файла ящика должно совпадать с именем файла изображения.

Как сгенерировать lstmf из файлов .box и .tif в обучении альфа-lstm tesseract 5

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сгенерировать lstmf из файлов .box и .tif в обучении альфа-lstm tesseract 5

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы