Тессеракт OCR, читающий пиксельный шрифт с низким разрешением - PullRequest
0 голосов
/ 26 мая 2019

Я пытаюсь использовать Tesseract OCR v4.1.0-elag2019 с обучающими данными TesseractBest для распознавания символов из снимка экрана (снимок экрана всегда будет выглядеть одинаково, за исключением текста).У меня трудное время для точных результатов (я думаю, потому что все мелкое и пиксельное).

Я пытался увеличить масштаб изображения (до 1000%), но я не могу получить большеточные результаты.У кого-нибудь есть идеи, как улучшить распознавание этого шрифта?

As you can see in the OCR data below there are a few errors marked between **ERROR**

Sell Offers:
**Kakoman** 1 625,000 625,000 2019—06—25, 09:13:40
....
Anonymous 2 629,699 1,259,398 2019—06—24, **16:31:44**

Buy Offers:
Anonymous 5 590,600 2,953,000 2019—06—25, **O8:15:21**

Используемая команда Tesseract:

tesseract.exe output.tiff outputFile -l eng --psm 6 --dpi 300 --oem 1 -c tessedit_write_images=true -c load_system_dawg=false -c load_freq_dawg=false -c page_separator="[PAGE SEPARATOR]"
...