Рекомендация программного обеспечения OCR для рассмотрения этого случая признания - PullRequest
0 голосов
/ 28 июня 2019

Я должен распознать текст на картинке так:

Изображение для распознавания

Я пробовал Тессеракт, но я не очень доволен результатами.

Не могли бы вы порекомендовать мне любое программное обеспечение, которое могло бы быть более точным в "распознавании текста на изображении" вместо "распознавания текста на документе"?

Заранее спасибо

Ответы [ 2 ]

1 голос
/ 28 июня 2019

Не ожидайте, что Tesseract будет работать из коробки. Это изображение нуждается в доработке, прежде чем поместить его в Tesseract.

Я бы сделал следующую предварительную обработку:

  1. размытие изображения, чтобы удалить часть цифрового шума
  2. адаптивный порог с подходящими параметрами
  3. правильное изображение цвета для обеспечения белого фона и черного текста
    • это должны быть простые операции, просто при необходимости инвертировать цвета
  4. запустить Tesseract с правильными языковыми файлами (я думаю, на итальянском?)

Эти этапы предварительной обработки действительно легко программировать вручную, но, конечно, есть множество библиотек с этими возможностями.

В качестве отправной точки см .: Предварительная обработка изображения для оптического распознавания текста Tesseract с OpenCV

0 голосов
/ 28 июня 2019

Я не знаю ни одного готового программного обеспечения, которое бы выполняло извлечение текста на вашем конкретном изображении без большого количества дополнительных настроек, но вы, вероятно, можете улучшить свои результаты Tesseract

Вы можете попытаться обработать изображение, чтобы Tesseract было легче его распознать, используйте tessedit_write_images true, чтобы увидеть ваше изображение после того, как Tesseract выполнит его автоматическую настройку

Вероятно, это не самый лучший вариант, поэтому вы можете выполнить настройки самостоятельно с помощью множества доступных библиотек / программ. Ваша цель должна состоять в том, чтобы преобразовать его в черно-белое текстовое изображение с минимальным уровнем шума

Для этого прочитайте: Улучшение качества

Вы также можете попробовать обучить Тессеракт для ваших конкретных данных, но это потребует намного больше работы и больших объемов обучающих данных, прочитайте: TrainingTesseract 4.0

...