Как создать файл конфигурации для Tessearct с gImageReader? - PullRequest
0 голосов
/ 18 мая 2018

Я пытаюсь помешать Тессеракту использовать лигатуры (например, «fi» из 2 символов становится «f» только из одного) и обнаружил, что можно добавить параметр в файл конфигурации двигателя , чтобы сделать именно это .

Однако я не могу найти этот файл в каталоге tessdata моей установки gImageReader ...

Как я могу создать его с точки зрения формата, имени,и другие потенциальные синтаксические реквизиты?

1 Ответ

0 голосов
/ 19 мая 2018

Вам может понадобиться распаковать файл .traineddata, чтобы добавить запись в файл unicharambigs с чем-то, как показано ниже, и затем упаковать его.

1 fi 2 fi 1

См. Документ: https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05#the-unicharambigs-file

...