Question

Я пытаюсь извлечь логотип из PDF-файлов.

Я применяю GaussianBlur, нахожу контуры и извлекаю только изображение.Но Тессеракт не может прочитать текст с этого изображения?

This is the extracted image

bkaankuguoglu · Answer 1 · 13 июня 2018

Удаление рамки вокруг букв часто помогает лучше распознавать тексты.Итак, если вы попробуете сценарий со следующим изображением, у вас будет больше шансов прочитать логотип.

С учетом сказанного выможет спросить, как вы могли бы добиться этого для этого логотипа и других логотипов аналогичным образом.Я мог бы подумать о нескольких способах изо всех сил, но я думаю, что наиболее общим решением, вероятно, будет конвейер, в котором сочетаются алгоритмы обнаружения текста и OCR.

Таким образом, вы, возможно, захотите проверить этот репозиторий, который предоставляет алгоритм обнаружения текста на основе R-CNN .
Вы также можете выполнить шагдо вашей игры тессеракт, применяя несколько различных методов предварительной обработки изображений.Недавно я написал довольно простое руководство по Tesseract и некоторым методам предварительной обработки изображений.Если вы хотите проверить их, я делюсь с вами ссылками:
- Начало работы с Tesseract - Часть I: Введение
- Начало работы с Tesseract - Часть II: предварительная обработка изображений
Однако выЕсли вы также заинтересованы в этом конкретном логотипе или шрифте, вы также можете попробовать обучить тессеракту с этим шрифтом, следуя инструкциям, приведенным здесь .

Текст не может быть прочитан с помощью pyTesseract

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Текст не может быть прочитан с помощью pyTesseract

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы