Текст не может быть прочитан с помощью pyTesseract - PullRequest
0 голосов
/ 13 июня 2018

Я пытаюсь извлечь логотип из PDF-файлов.

Я применяю GaussianBlur, нахожу контуры и извлекаю только изображение.Но Тессеракт не может прочитать текст с этого изображения?

This is the extracted image

1 Ответ

0 голосов
/ 13 июня 2018

Удаление рамки вокруг букв часто помогает лучше распознавать тексты.Итак, если вы попробуете сценарий со следующим изображением, у вас будет больше шансов прочитать логотип.

enter image description here

С учетом сказанного выможет спросить, как вы могли бы добиться этого для этого логотипа и других логотипов аналогичным образом.Я мог бы подумать о нескольких способах изо всех сил, но я думаю, что наиболее общим решением, вероятно, будет конвейер, в котором сочетаются алгоритмы обнаружения текста и OCR.

  1. Таким образом, вы, возможно, захотите проверить этот репозиторий, который предоставляет алгоритм обнаружения текста на основе R-CNN .
  2. Вы также можете выполнить шагдо вашей игры тессеракт, применяя несколько различных методов предварительной обработки изображений.Недавно я написал довольно простое руководство по Tesseract и некоторым методам предварительной обработки изображений.Если вы хотите проверить их, я делюсь с вами ссылками:

  3. Однако выЕсли вы также заинтересованы в этом конкретном логотипе или шрифте, вы также можете попробовать обучить тессеракту с этим шрифтом, следуя инструкциям, приведенным здесь .

...