преобразование pdf на основе изображения в файл изображения (png / jpg) в python - PullRequest
0 голосов
/ 24 апреля 2020

Я хочу преобразовать PDF-файл на основе изображения в файл изображения (.png / .jpg) в Python, чтобы я мог в дальнейшем использовать это изображение для получения точных табличных данных. Я не хочу запускать код из командной строки.

В настоящее время я использую Python 3.7.1 версию и Pycharm IDE.

Я пробовал код, предоставленный в stackoverflow, но ничего не работает , он работает, но не может извлечь PDF-файл из изображения. Ниже ссылка для этого. Извлечение изображений из pdf с использованием Python

Кроме того, пробовал код с dzone.com, ссылка ниже, но ничего не работает https://dzone.com/articles/exporting-data-from-pdfs-with-python

Ниже приведены ссылки на файлы PDF на основе изображений:

ссылка 1: https://www.molex.com/pdm_docs/sd/190390001_sd.pdf

ссылка 2: https://www.te.com/commerce/DocumentDelivery/DDEController?Action=showdoc&DocId=Customer+Drawing%7FDT04-12PX-C015%7F-%7Fpdf%7FEnglish%7FENG_CD_DT04-12PX-C015_-.pdf%7FDT04-12PA-C015

Пожалуйста, предложите любое решение для этого.

1 Ответ

2 голосов
/ 24 апреля 2020

Библиотека pdf2image преобразует PDF в изображения. Поскольку ваши PDF-файлы выглядят просто как изображения, вы можете преобразовать страницу в изображение

Установить

pip install pdf2image

После установки вы можно использовать следующий код для получения изображений.

from pdf2image import convert_from_path
pages = convert_from_path('pdf_file', 500)

# Saving pages in jpeg format

for page in pages:
    page.save('out.jpg', 'JPEG')
...