Question

Я использую tesseract-OCR для извлечения текста из отсканированных изображений. Для некоторых изображений текст не распознается должным образом из-за низкого разрешения, и в результате выводятся некоторые несоответствующие символы.

Применяемые методы:

Увеличьте dpi до 300.
Методы предварительной обработки изображений в opencv.
Масштабирование изображений с использованием dnn_superres в opencv
Методы удаления шума.
Реферируемые git репозитории, в которых модель алгоритма сверхвысокого разрешения разработана с использованием Deep обучение.
Улучшение качества tesseract-ocr путем обучения tessdata.

Ссылки на ссылки :

Пример изображения:

Есть ли простой способ в python улучшить текст без использования какой-либо модели глубокого обучения.

Matthew Smith · Answer 1 · 14 мая 2020

Я знаю, что вы предпочли бы масштабировать эти входные изображения с помощью глубокого обучения, но я настоятельно рекомендую поэкспериментировать с https://github.com/alexjc/neural-enhance, предполагая, что у вас есть соответствующее оборудование для запуска нейронных сетей и глубокого обучения. .

Результаты для ваших входных изображений OCR могут быть многообещающими. Документация по коду довольно обширна.

Надеюсь, это вам поможет!

как увеличить разрешение текста в отсканированных изображениях в python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как увеличить разрешение текста в отсканированных изображениях в python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы