быстрая предварительная обработка с OpenCV в качестве входа для оптического распознавания текста - PullRequest
0 голосов
/ 04 сентября 2018

В последнее время я играюсь с tesseract-ocr для сканирования квитанций.

Мне удалось получить некоторые слова и цифры, но по некоторым причинам осталось немного цифр: /.

Данное изображение для тессеракта было преобразовано в черно-белое, и после ручных изменений мне удалось обнаружить небольшое пространство вокруг каждой строки, это одна из причин, по которой фактические числа были отброшены, я предполагаю, что эти строки с слова затрудняют получение тессеракта для поиска чисел в строке ниже ( строки довольно близки друг к другу, хотя между ними есть пробел )

конфигурация тессеракта:

  --psm 4 --oem 0

Кто-нибудь знаком с этим, действительно ли пробел действительно влияет на результаты tesseract ocr?

если так, я думаю, мне нужно: итерируйте по всем строкам, а затем итерируйте по BLOB-объектам, принадлежащим к одной и той же строке, и сдвигайте их по вертикали для увеличения пространства (звучит немного утомительно). тебе не кажется?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...