Извлечение фото из pdf файла - PullRequest
0 голосов
/ 19 января 2009

Кто-нибудь знает, как я могу извлечь все изображения JPG из PDF-файла? В настоящее время я использую Acrobat, и у меня есть файл, содержащий около 1500 фотографий, которые мне нужно извлечь, но делать их по одной за раз было бы слишком много времени. Есть идеи?

Спасибо.

Ответы [ 4 ]

1 голос
/ 19 января 2009

Существуют бесплатные утилиты, которые могут помочь вам в этом. Например, быстрый поиск в Google показал этот .

1 голос
/ 19 января 2009

просто выполнив небольшой поиск, я нашел это, надеюсь, это поможет ... я не могу придумать причину, по которой 1500 изображений будут в pdf.

http://pdf -image-extraction-wizard.lastdownload.com /

0 голосов
/ 22 марта 2019

Кодирование ответа (требуется tesseract (бесплатное программное обеспечение)). Я не уверен, какой из пакетов я фактически использовал для этого бита кода, некоторые пакеты существуют для других функций в том же блоке кода.

from PIL import Image
import pytesseract
import cv2
import os
import subprocess

#Strip images and put them in the relevant directory
def image_exporter(pdf_path, output_dir):
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    cmd = ['pdfimages', '-all', pdf_path,
           '{}/prefix'.format(output_dir)]
    subprocess.call(cmd)
    print('Images extracted:')
    print(os.listdir(output_dir))
0 голосов
/ 23 февраля 2018

На Mac попробуйте приложение FileJuicer - это обычно очень хорошо работает при извлечении изображений из PDF

...