Скажите Teseract заменить персонажа, узнаваемого другим - PullRequest
0 голосов
/ 10 марта 2020

Я пишу кучу старых газет. Тессеракт работает очень хорошо, но есть только одна проблема:

определяет почти (99%) символы "o" как "º".

Если список символов из белого списка, исключающий Тессеракт "º", не заменяет самый идентичный (возможно, "o"), вместо этого он отклоняет только распознавание. Таким образом, слово «Hola» стало распознанным, имеет «Hla».

Итак, знаете ли вы строку конфигурации для замены всех символов «º» на «o»?

Я могу сделать с TXT вывод просто с помощью sed, но он мне нужен для вывода PDF.

Заранее спасибо

1 Ответ

0 голосов
/ 11 марта 2020

Попробуйте заменить файл unicharambigs, встроенный в файл .traineddata, для Tesseract 3.03–3.05.

https://github.com/tesseract-ocr/tessdoc/blob/master/Training-Tesseract-3.03%E2%80%933.05.md#the -unicharambigs-file

...