Question

Проведите полдня, пытаясь найти лучший способ предварительной обработки изображения для оптического распознавания текста Тессеракта, и не нашли никаких хороших результатов, кроме порога.Кто-нибудь может подсказать, какие шаги мне следует попробовать?OpenCV, ImageMagick, Gimp подходят мне как инструментам, изображения могут иметь различный фон, но шрифт и цвет шрифта всегда будут одинаковыми.Вот примеры изображений:

Я получил что-то подобное в настоящее время, используя пороговые фильтры:

и текст из OCR вот так: "УСТРАНЕННЫЕ СРОКИ220_{¢ - \ "|«Vv a.- "

Gaploid · Answer 1 · 14 февраля 2019

Я нашел хорошую статью, в которой описывается множество этапов предварительной обработки https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

Но лучше всего было использовать "морфологическую операцию Top-Hat" - манипуляции с использованием соседних пикселей,Это можно сделать с помощью OpenCV
tophat = cv2.morphologyEx(gray, cv2.MORPH_TOPHAT, rectKernel)

или с помощью ImageMagick http://www.imagemagick.org/Usage/morphology/#top-hat

Шаги по улучшению предварительной обработки для распознавания текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Шаги по улучшению предварительной обработки для распознавания текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы