Извлечение текста из светлого текста на фоновом изображении - PullRequest
0 голосов
/ 25 августа 2018

У меня есть изображение, подобное следующему:

Image to be processed

, и я хотел бы извлечь из него текст, который должен быть ws35,Я пытался использовать библиотеку pytesseract , используя метод:

pytesseract.image_to_string(Image.open(path))

, но он ничего не возвращает ... Я что-то не так делаю?Как я могу вернуть текст с помощью OCR?Нужно ли применять какой-либо фильтр к нему?

Ответы [ 4 ]

0 голосов
/ 25 августа 2018

Аналогично предложению @ SilverMonkey: размытие по Гауссу с последующим пороговым значением Otsu.

enter image description here

0 голосов
/ 25 августа 2018

Вы можете попробовать следующий подход:

  • Binarize изображение с методом по вашему выбору (пороговое значение с 127 кажется достаточным в этом случае)
  • Используйте минимальный фильтр , чтобы соединить потерянные точки с образованием символов. Таким образом, фильтр с r = 4, кажется, работает довольно хорошо: Image after application of minimum filter
  • При необходимости результат может быть улучшен путем применения медианного размытия (r = 4): enter image description here

Поскольку я лично не использую tesseract, я не могу попробовать эту картинку, но онлайн-инструменты ocr, похоже, способны правильно определить последовательность (особенно если вы используете размытую версию).

0 голосов
/ 25 августа 2018

Возможно, вам потребуется применить к нему некоторую обработку / улучшение изображения.Посмотрите на этот пост прочитайте предложения и попробуйте применить.

0 голосов
/ 25 августа 2018

Проблема в том, что эта картинка низкого качества и очень шумная!даже профессиональные и предпринимательские программы борются с этим

, который вы, скорее всего, уже видели раньше, и причина этого в том, что он отправляется обратно в базу данных с вашим ответом и изображением, а затем используется для обучения компьютеров чтению.изображения, подобные этим.

краткий ответ: pytesseract не может прочитать текст внутри этого изображения, и, скорее всего, ни один модуль или профессиональные программы не смогут его прочитать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...