Pytesseract применяет результаты к исходному изображению и создает PDF - PullRequest
0 голосов
/ 02 ноября 2019

Вопрос 1. Я использую pytesseract (на основе Google Tesseract-OCR Engine) для улучшения распознавания некоторых старых каталогов. Поскольку важно сохранить первоначальный вид изображений, я хотел преобразовать PDF в изображения, предварительно обработать изображения, выполнить оптическое распознавание текста с помощью pytesseract и сохранить текст (результаты распознавания) в исходный PDF. Вот основные шаги:

Оригинальный PDF (Фото каталог с 1930 года) -> Изображение -> Предварительная обработка (альфа, оттенки серого, размытие и т. Д. Без изменения размеров или «размещения» слов) -> Pytesseractчтобы получить текст -> Применить текстовые результаты Pytesseract в исходный PDF (не в предварительно обработанные измененные изображения)

Мне удается выполнить все шаги, кроме последнего. Я создаю словарь со словами и прямоугольниками («output_type = pytesseract.Output.DICT»), но я не знаю, как «применить» его к исходному PDF. Итак, мой вопрос: как я могу использовать pytesseract в другой PDF и сохранить его?

Вопрос 2 - Как я могу отредактировать текст OCR (например, проверку орфографии) перед применением его к Исходному PDF?

Спасибо!

...