преобразование PDF в изображение, но после увеличения - PullRequest
5 голосов
/ 22 марта 2019

Эта ссылка показывает, как pdf s может быть преобразовано в изображения. Есть ли способ увеличить мои pdf с до преобразования в изображения? В моем проекте я конвертирую pdf s в png s, а затем использую библиотеку Python-tesseract для извлечения текста. Я заметил, что, если я увеличиваю pdf с, а затем сохраняю детали как png с, тогда OCR обеспечивает гораздо лучшие результаты. Так есть ли способ увеличить PDF-файлы перед преобразованием в PNG?

1 Ответ

7 голосов
/ 28 марта 2019

Я думаю, что повышение качества (разрешения) вашего изображения - лучшее решение, чем увеличение масштаба PDF.

с помощью pdf2image вы можете сделать это довольно легко:

install pdf2image: pip install pdf2image

затем в python преобразуйте ваш pdf в высококачественное изображение:

from pdf2image import convert_from_path

pages = convert_from_path('sample.pdf', 400) //400 is the Image quality in DPI (default 200)

pages[0].save("sample.png")

, поиграв с параметром качества, вы получите желаемый результат

...