Как конвертировать многостраничный PDF в один HTML-файл - PullRequest
0 голосов
/ 02 апреля 2019

Я использую метод poppler pdftohtml для преобразования pdf в html.Я пытаюсь запустить exec-файл через python.

import subprocess

subprocess.Popen([r"D:/poppler-0.68.0/bin/pdftohtml.exe" , 'name.pdf', 'name.html'])

Используя приведенный выше код, я получаю мой html-файл, а также изображения (.jpg) каждой страницы в формате pdf.

Мне нужен только HTML-файл, а не изображения.Какие изменения / аргументы я должен сделать / добавить, чтобы получить ожидаемый результат?

1 Ответ

0 голосов
/ 02 апреля 2019

Согласно их документации могут быть два варианта, которые могут вам помочь:

-i ignore images

и

-s generate single HTML that includes all pages

Если это не сработает, ты ничего не сможешь сделать.

...