Я разрабатываю Python Flask веб-приложение и пытаюсь преобразовать некоторые загруженные пользователем PDF-файлы в красиво отформатированный HTML, например HTML, который создается при отображении PDF-файла внутри iframe
.
До сих пор я пробовал несколько вещей:
- библиотека
pdfminer.six
, производит грязный HTML, - , пытаясь схватить произведенный HTML при рендеринге PDF с pdf. js, который, по-видимому, скрыт в Shadow DOM без доступа к его внутреннему HTML
- наконец я наткнулся на
pdf2htmlEX
( https://github.com/pdf2htmlEX/pdf2htmlEX), который произвел именно то, что я хотел.
Локально, это решение работало отлично, однако в рабочем состоянии (Heroku) я не смог правильно его установить. Проект устарел, а документация ограничена и ужасна. Эта проблема связана с нарушением зависимостей.
Итак, как эффективно преобразовать PDF-файлы в HTML без потери какого-либо формата, используя Python или любой другой инструмент?
Большое спасибо.
, если кто-нибудь захочет помочь мне заставить pdf2htmlEX
работать над герою, оставьте комментарий, и я опубликую более подробную информацию в другом сообщении