Question

Я пытаюсь извлечь текст из зашумленных изображений с помощью Pytesseract OCR.У меня возникают трудности при извлечении / очистке текста из изображений, чтобы он был в формате, подходящем для Pytesseract.Мой текущий подход заключается в том, чтобы найти область текста, затем найти доминирующий цвет в этой области (который обычно будет текстом) и, наконец, применить фильтр NOT, чтобы все в диапазоне доминирующих цветов было установлено равным 1, а все остальноеимеет значение 0.

Когда изображения, подобные приведенным ниже, создаются с использованием этого метода, Pytesseract может распознавать текст.

Однако при создании этих изображений Pytesseract не может распознать какой-либо текст.Я полагаю, это потому, что извлеченный текст поврежден.

Я пытался использовать размытие по Гауссу, затем адаптивное пороговое значение, эрозию, расширение и, наконец, контур на извлеченных текстовых изображениях выше, однако эти результаты все еще не являются адекватными.Мне было интересно, как я должен извлечь текст.Это проблема с первоначальным извлечением текста (с использованием наиболее доминирующего цвета) или проблема с восстановлением поврежденного текста (как показано выше)?

Исходное изображение:

OpenCV - извлечение нечеткого текста для распознавания текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

OpenCV - извлечение нечеткого текста для распознавания текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы