В последнее время я играюсь с tesseract-ocr для сканирования квитанций.
Мне удалось получить некоторые слова и цифры, но по некоторым причинам осталось немного цифр: /.
Данное изображение для тессеракта было преобразовано в черно-белое, и после ручных изменений мне удалось обнаружить небольшое пространство вокруг каждой строки, это одна из причин, по которой фактические числа были отброшены, я предполагаю, что эти строки с слова затрудняют получение тессеракта для поиска чисел в строке ниже ( строки довольно близки друг к другу, хотя между ними есть пробел )
конфигурация тессеракта:
--psm 4 --oem 0
Кто-нибудь знаком с этим, действительно ли пробел действительно влияет на результаты tesseract ocr?
если так, я думаю, мне нужно:
итерируйте по всем строкам, а затем итерируйте по BLOB-объектам, принадлежащим к одной и той же строке, и сдвигайте их по вертикали для увеличения пространства (звучит немного утомительно). тебе не кажется?