Получение лучших результатов с OCR - PullRequest
0 голосов
/ 28 мая 2018

Я использую tesseract для получения текста из TIFF-файлов, я уже обрабатываю изображение с помощью textcleaner и localtresh из imagemagick, как мне повысить точность?

Все должно выполняться автоматически из терминала,Я не могу жестко указать имена файлов или что-то еще, потому что я буду загружать файл в форму и обрабатывать его.

Теперь после всей обработки я получаю следующие результаты:

enter image description here

enter image description here

Которые после прочтения тессерактом не очень точны.У меня есть обученные данные для языка, который я использую, и пользовательские параметры tessaract, которые помогают немного, но не очень много

используемые команды терминала:

convert -verbose -density 400 -trim {$convertpdf} -quality 100 -flatten -sharpen 0x1.0 {$tiff}
/www/textcleaner -l p -g -e normalize -f 42 -o 15 -u -s 1 -T -p 5
/www/localthresh -m 1 -r 25 -b 5 -n yes
...