Как я могу добавить новый шрифт в Tesseract 4.0? - PullRequest
0 голосов
/ 29 мая 2019

Я создаю программу идентификации текста и хочу обучить свой Tesseract 4.0 идентифицировать определенный шрифт (на иврите).Как я могу это сделать?

Я попробовал "trainyourtesseract.com" (который вообще не работал) и "jTessBoxEditor" (что я не понимал, как заставить его работать должным образом).

Я бы хотел получить помощь по этому вопросу.Спасибо.

1 Ответ

1 голос
/ 26 июля 2019

Вы пытались прочитать эту ссылку? https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00#tutorial-guide-to-lstmtraining Грубый подход заключается в том, что вам нужно подготовить свои собственные языковые файлы (и, что наиболее важно, свой собственный файл .trainingtext), а затем запустить tesstrain.sh, чтобы сгенерировать набор данных. После этого вы можете запустить объединение_тессданных, чтобы извлечь файл .lstm из исходной модели на иврите и использовать его в качестве параметра в инструменте lstmtraining для точной настройки исходной модели с вашим новым шрифтом.

...