Есть ли способ улучшить распознавание текста с маленькими шрифтами? - PullRequest
12 голосов
/ 05 февраля 2011

Я пытаюсь использовать tesseract-OCR через python-tesseract для чтения шрифта низкого разрешения, который выглядит следующим образом:

enter image description here

К сожалению, этоизображение возвращается

ZIJZHZI

Я думаю, что разрешение слишком низкое, и это вызывает проблемы.Я попытался увеличить изображение и обрезать его до отдельных символов, но ни один из них не дает большого улучшения.Есть ли что-то еще, что я должен рассмотреть, предпочтительно что-то, что можно сделать с помощью библиотеки изображений Python?Или я должен просто сдаться / обучить тессеракт.

Для чего стоит, PIL имеет следующие встроенные фильтры:

BLUR, CONTOUR, DETAIL, EDGE_ENHANCE,
EDGE_ENHANCE_MORE, EMBOSS, FIND_EDGES,
SMOOTH, SMOOTH_MORE и SHARPEN

1 Ответ

17 голосов
/ 09 февраля 2011

Я пытался увеличить изображение с помощью:

  convert -resize 400% in.bmp out.bmp

А затем прочитайте это:

  tesseract out.bmp res

Результат правильный:

  100
...