Question

Я использую метод poppler pdftohtml для преобразования pdf в html.Я пытаюсь запустить exec-файл через python.

import subprocess

subprocess.Popen([r"D:/poppler-0.68.0/bin/pdftohtml.exe" , 'name.pdf', 'name.html'])

Используя приведенный выше код, я получаю мой html-файл, а также изображения (.jpg) каждой страницы в формате pdf.

Мне нужен только HTML-файл, а не изображения.Какие изменения / аргументы я должен сделать / добавить, чтобы получить ожидаемый результат?

andreihondrari · Answer 1 · 02 апреля 2019

Согласно их документации могут быть два варианта, которые могут вам помочь:

-i ignore images

и

-s generate single HTML that includes all pages

Если это не сработает, ты ничего не сможешь сделать.

Как конвертировать многостраничный PDF в один HTML-файл

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.