Я использую tesseract для получения текста из TIFF-файлов, я уже обрабатываю изображение с помощью textcleaner и localtresh из imagemagick, как мне повысить точность?
Все должно выполняться автоматически из терминала,Я не могу жестко указать имена файлов или что-то еще, потому что я буду загружать файл в форму и обрабатывать его.
Теперь после всей обработки я получаю следующие результаты:
![enter image description here](https://i.stack.imgur.com/bo74Z.png)
![enter image description here](https://i.stack.imgur.com/AUnJJ.png)
Которые после прочтения тессерактом не очень точны.У меня есть обученные данные для языка, который я использую, и пользовательские параметры tessaract, которые помогают немного, но не очень много
используемые команды терминала:
convert -verbose -density 400 -trim {$convertpdf} -quality 100 -flatten -sharpen 0x1.0 {$tiff}
/www/textcleaner -l p -g -e normalize -f 42 -o 15 -u -s 1 -T -p 5
/www/localthresh -m 1 -r 25 -b 5 -n yes