Конвертируйте PDF в HTML без потери формата - PullRequest
0 голосов
/ 24 марта 2020

Я разрабатываю Python Flask веб-приложение и пытаюсь преобразовать некоторые загруженные пользователем PDF-файлы в красиво отформатированный HTML, например HTML, который создается при отображении PDF-файла внутри iframe.

До сих пор я пробовал несколько вещей:

  • библиотека pdfminer.six, производит грязный HTML,
  • , пытаясь схватить произведенный HTML при рендеринге PDF с pdf. js, который, по-видимому, скрыт в Shadow DOM без доступа к его внутреннему HTML
  • наконец я наткнулся на pdf2htmlEX ( https://github.com/pdf2htmlEX/pdf2htmlEX), который произвел именно то, что я хотел.

Локально, это решение работало отлично, однако в рабочем состоянии (Heroku) я не смог правильно его установить. Проект устарел, а документация ограничена и ужасна. Эта проблема связана с нарушением зависимостей.

Итак, как эффективно преобразовать PDF-файлы в HTML без потери какого-либо формата, используя Python или любой другой инструмент?

Большое спасибо.

, если кто-нибудь захочет помочь мне заставить pdf2htmlEX работать над герою, оставьте комментарий, и я опубликую более подробную информацию в другом сообщении

1 Ответ

1 голос
/ 24 марта 2020

Это не будет тривиальным. Но я дам несколько советов.

Вам необходим app.json, в котором вы определяете свои пакеты сборки.
https://devcenter.heroku.com/articles/app-json-schema#buildpacks

Если этот проект доступен через apt это будет легко. Вы просто используете Apt buildpack Heroku , определяющий Aptfile, в котором указано, какие пакеты необходимо установить. Пример
Затем он устанавливает его автоматически, и все готово.

Если он недоступен как пакет, вам нужно будет создать свой собственный пакет сборки.
https://devcenter.heroku.com/articles/buildpack-api
Пример используется здесь .

Другое решение состоит в том, чтобы докеризовать ваш проект и выполнить его как контейнер docker.

...