Тессеракт OCR с числовыми таблицами - PullRequest
0 голосов
/ 15 мая 2019

Мне нужно OCR старые статистические таблицы, которые содержат числовые значения для каждого города в данной области. Я использую Tesseract 4.0.0-beta.3, , и в большинстве случаев я получаю приемлемые результаты, но в некоторых других программное обеспечение не может распознать структуру таблицы и пропускает строки или целые столбцы.

enter image description here

Я пытался применить более подходящую конфигурацию, проверив --help-psm, но, честно говоря, я не мог понять, какая из них может улучшить мои результаты. Я также пытался разделить таблицы на отдельные столбцы, но результаты были еще хуже. Я предполагаю, что проблема заключается в том, что некоторые ячейки содержат одно или двухзначные числа, и строки считаются короткими, что обычно хорошо, но здесь это довольно проблематично. Какие настройки вы бы использовали для оптимизации результатов?

...