Тессеракт - обнаружение небольшого размера шрифта изображения и преобразование в текст - PullRequest
0 голосов
/ 05 июня 2018

У меня есть скриншот банковского чека, мне нужен весь текст с этого скриншота, но tesseract не может его правильно прочитать.Я также пытался предварительно обработать изображение, но вывод не удался.

Я использую ImageMagick для предварительной обработки и Tesseract для распознавания текста.Ссылка на изображение: https://imgur.com/a/pcgizic

Я могу получить номер счета, но не код IFSC и имя человека "SRINIVAS"

Следующие шаги следующие:

magick -density 300 check1.jpg -depth 8 -strip -background white -alpha off check1.png

magick convert check1.png -resize 250% res_check1.png

convert -brightness-contrast 10x30 res_check1.png b_res_check1.png

convert b_res_check1.png -threshold 45% bin_res_check1.png

tesseract bin_res_check1.png o_res_check1

Примечание. Я попытался изменить размер изображения до 400%, но это не сработало.Google Vision API может правильно читать и преобразовывать каждый текст.

1 Ответ

0 голосов
/ 05 июня 2018

В ImageMagick вы можете использовать -lat (порог локальной зоны), чтобы обработать изображение для очистки фона.У меня также есть скрипт оболочки bash, очиститель текста, на http://www.fmwconcepts.com/imagemagick/index.php.

Ввод:

enter image description here

Для ImageMagick 6, попробуйте

convert input.jpg -negate -lat 25x25+10% -negate result.png

Измените аргументы -lat, чтобы посмотреть, сможете ли вы улучшить результаты.

Для ImageMagick 7 замените конвертацию магией.

enter image description here

Это помогает?Маленькие шрифты будут трудно обрабатывать.Увеличение растрового изображения, как правило, не сильно помогает.Но вы можете попробовать использовать фильтры для повышения резкости или фильтры с более резким изменением размера, такие как -filter catrom.См. http://www.imagemagick.org/Usage/filter/

Вы также можете попробовать выполнить перспективное преобразование, чтобы исправить исходное изображение перед дальнейшей обработкой.Это также может помочь.См http://www.imagemagick.org/Usage/distorts/#perspective

...