Мне нужно OCR старые статистические таблицы, которые содержат числовые значения для каждого города в данной области. Я использую Tesseract 4.0.0-beta.3, , и в большинстве случаев я получаю приемлемые результаты, но в некоторых других программное обеспечение не может распознать структуру таблицы и пропускает строки или целые столбцы.
![enter image description here](https://i.stack.imgur.com/m03wC.png)
Я пытался применить более подходящую конфигурацию, проверив --help-psm
, но, честно говоря, я не мог понять, какая из них может улучшить мои результаты. Я также пытался разделить таблицы на отдельные столбцы, но результаты были еще хуже. Я предполагаю, что проблема заключается в том, что некоторые ячейки содержат одно или двухзначные числа, и строки считаются короткими, что обычно хорошо, но здесь это довольно проблематично. Какие настройки вы бы использовали для оптимизации результатов?