Ищете инструмент командной строки для преобразования PDF в HTML со встроенными изображениями - PullRequest
0 голосов
/ 07 ноября 2019

Я пробовал poppler, pdftohtml, pdftohtml в xpdf и pdftohtmlex. Все делают хорошую работу, если я пытаюсь воссоздать PDF в HTML. Но в результате получаются сложные HTML-документы с имитируемыми «страницами» при прокрутке, причем каждая строка текста находится в собственном абсолютно позиционированном элементе div, а изображения отображаются на одном большом фоновом изображении страницы.

Это выглядитотлично, если вы хотите просмотреть PDF из HTML, но я ищу более "нативное" преобразование HTML. В идеале можно размещать абзацы текста в тегах <p>, а отдельные изображения - в тегах <img>. Я пробовал разные варианты в различных вышеупомянутых инструментах, но все они, кажется, генерируют фоновые изображения, а не отдельные изображения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...