Это классическая c проблема PyTesseract для сканирования зашумленных изображений. Однако в этом случае матричный принтер печатает несколько горизонтальных белых линий в тексте. Прилагаются некоторые образцы. Я не уверен, какая предварительная обработка улучшит сканирование текста.
Используя приведенную ниже команду, вы получите следующий пример:
tesseract test.png stdout --psm 6 --dpi 120
Вывод: (ожидаемое значение «RV C 64.80%»)
PRVG
64.5056"
Для приведенного выше изображения pytesseract дает
152.00 KILOGRAW
817.51 USO
и ожидаемое - 152,00 КИЛОГРАММА 617,51 USD
Я знаю, что изображения зашумлены, поэтому, пожалуйста, не публикуйте очевидный ответ, поскольку изображения зашумлены, поэтому вывод плохой. Поскольку я всегда получаю один и тот же текст с принтера, я могу применять один и тот же тип предварительной обработки.