Как обработать мои изображения, чтобы помочь Tesseract? - PullRequest
0 голосов
/ 17 февраля 2019

У меня есть несколько изображений, содержащих только цифры, и точка с запятой.

Пример: https://i.imgur.com/o4iz80V.png

Вы можете увидеть больше здесь: https://imgur.com/a/54dsl6h

Они кажутся довольнодля меня это просто и понятно, но Тессеракт считает их пустыми "страницами" (Empty page!!).

Я пробовал как с oem 1, так и с oem 0 со списком символов:

  • tesseract processed/35.0.png stdout -c tessedit_char_whitelist=0123456789: --oem 0

  • tesseract processed/35.0.png stdout

Что я могу сделать, чтобы Тессеракт лучше распознавал символы?

1 Ответ

0 голосов
/ 27 февраля 2019

Тессеракт все еще дает мне довольно плохие результаты в целом, но немного смелее помогло сделать текст более смелым с помощью простого алгоритма расширения.

В конце концов, поскольку шрифт действительно квадратный, я использовал трюк, в котором яопределил связку сегментов для каждой цифры, и в зависимости от того, какие сегменты пересекаются или не пересекаются с цифрой, я могу с точностью до 99% определить, какая это цифра.

...