Я использую pyocr (https://github.com/openpaperwork/pyocr) для моего приложения, все работает хорошо, за исключением следующего:
Из этого изображения:
Тессеракт будет извлекать:
42Z8
Он обнаруживает один из Z, но не другой Z, это важно, потому что это число проходит проверку, которая не проходит, если возникает эта проблема.
Вещи, которые я пробовал:
- Использование файла шрифта (flama) .traineddata с tesseract, не исправлено.
- Изолируйте блок как изображение, чтобы увидеть, что обнаружение было лучше.
- Выполнение обработки изображения, например:
thresh = cv.threshold (blocktext, 127, 255, cv.THRESH_BINARY)
Как я могу это исправить? Возможно, решение состоит в более сложной обработке изображений, но сейчас я немного растерялся.
Спасибо.
Обновленное изображение: