Question

В последнее время я играюсь с tesseract-ocr для сканирования квитанций.

Мне удалось получить некоторые слова и цифры, но по некоторым причинам осталось немного цифр: /.

Данное изображение для тессеракта было преобразовано в черно-белое, и после ручных изменений мне удалось обнаружить небольшое пространство вокруг каждой строки, это одна из причин, по которой фактические числа были отброшены, я предполагаю, что эти строки с слова затрудняют получение тессеракта для поиска чисел в строке ниже ( строки довольно близки друг к другу, хотя между ними есть пробел )

конфигурация тессеракта:

  --psm 4 --oem 0

Кто-нибудь знаком с этим, действительно ли пробел действительно влияет на результаты tesseract ocr?

если так, я думаю, мне нужно: итерируйте по всем строкам, а затем итерируйте по BLOB-объектам, принадлежащим к одной и той же строке, и сдвигайте их по вертикали для увеличения пространства (звучит немного утомительно). тебе не кажется?

быстрая предварительная обработка с OpenCV в качестве входа для оптического распознавания текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

быстрая предварительная обработка с OpenCV в качестве входа для оптического распознавания текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы