Я пробовал poppler, pdftohtml, pdftohtml в xpdf и pdftohtmlex. Все делают хорошую работу, если я пытаюсь воссоздать PDF в HTML. Но в результате получаются сложные HTML-документы с имитируемыми «страницами» при прокрутке, причем каждая строка текста находится в собственном абсолютно позиционированном элементе div, а изображения отображаются на одном большом фоновом изображении страницы.
Это выглядитотлично, если вы хотите просмотреть PDF из HTML, но я ищу более "нативное" преобразование HTML. В идеале можно размещать абзацы текста в тегах <p>
, а отдельные изображения - в тегах <img>
. Я пробовал разные варианты в различных вышеупомянутых инструментах, но все они, кажется, генерируют фоновые изображения, а не отдельные изображения.