Я пытаюсь извлечь текст из зашумленных изображений с помощью Pytesseract OCR.У меня возникают трудности при извлечении / очистке текста из изображений, чтобы он был в формате, подходящем для Pytesseract.Мой текущий подход заключается в том, чтобы найти область текста, затем найти доминирующий цвет в этой области (который обычно будет текстом) и, наконец, применить фильтр NOT, чтобы все в диапазоне доминирующих цветов было установлено равным 1, а все остальноеимеет значение 0.
Когда изображения, подобные приведенным ниже, создаются с использованием этого метода, Pytesseract может распознавать текст.
Однако при создании этих изображений Pytesseract не может распознать какой-либо текст.Я полагаю, это потому, что извлеченный текст поврежден.
Я пытался использовать размытие по Гауссу, затем адаптивное пороговое значение, эрозию, расширение и, наконец, контур на извлеченных текстовых изображениях выше, однако эти результаты все еще не являются адекватными.Мне было интересно, как я должен извлечь текст.Это проблема с первоначальным извлечением текста (с использованием наиболее доминирующего цвета) или проблема с восстановлением поврежденного текста (как показано выше)?
Исходное изображение: