Я пытаюсь извлечь логотип из PDF-файлов.
Я применяю GaussianBlur, нахожу контуры и извлекаю только изображение.Но Тессеракт не может прочитать текст с этого изображения?
Удаление рамки вокруг букв часто помогает лучше распознавать тексты.Итак, если вы попробуете сценарий со следующим изображением, у вас будет больше шансов прочитать логотип.
С учетом сказанного выможет спросить, как вы могли бы добиться этого для этого логотипа и других логотипов аналогичным образом.Я мог бы подумать о нескольких способах изо всех сил, но я думаю, что наиболее общим решением, вероятно, будет конвейер, в котором сочетаются алгоритмы обнаружения текста и OCR.
Вы также можете выполнить шагдо вашей игры тессеракт, применяя несколько различных методов предварительной обработки изображений.Недавно я написал довольно простое руководство по Tesseract и некоторым методам предварительной обработки изображений.Если вы хотите проверить их, я делюсь с вами ссылками:
Начало работы с Tesseract - Часть I: Введение
Начало работы с Tesseract - Часть II: предварительная обработка изображений
Однако выЕсли вы также заинтересованы в этом конкретном логотипе или шрифте, вы также можете попробовать обучить тессеракту с этим шрифтом, следуя инструкциям, приведенным здесь .