Есть ли способ создать точную HTML страницу из файла PDF? - PullRequest
1 голос
/ 18 февраля 2020

Я пробую разные python библиотеки, такие как pdftotree, pdfminer, tabula et c. Но не смог получить точных результатов. Я имею в виду, что я могу получить текст из PDF, изображений и табличных данных в HTML, но не так, как поддерживается и организован как оригинальный файл PDF. Может кто-нибудь помочь мне с этим? Я был бы благодарен.

1 Ответ

0 голосов
/ 18 февраля 2020

В основном да. Переведите PDF в SVG и вставьте SVG в свою веб-страницу.

Модель изображения SVG (что она может представлять и как) представляет собой почти расширенный вариант модели изображения PDF (который сам по себе является расширенным набором PostScript. ), хотя в SVG отсутствуют некоторые специфические для печати c возможности PDF. Вероятно, уже есть немало конвертеров PDF-> SVG. Поиск в Google «Pdf to SVG» обнаружил немало многообещающих хитов

Будут некоторые сложности:

  • Многие PDF-файлы длиннее 1 страницы. Возможно, вам потребуется сгенерировать 10 файлов SVG для одного 10-страничного файла PDF, а затем создать веб-страницу вокруг этих 10 файлов SVG. Добавьте несколько динамиков c HTML для «переворачивания страниц», и вы получите хороший веб-просмотрщик PDF.

  • Есть части PDF, которых нет в его модель изображения вообще ... закладки, аннотации (поля формы, цифровые подписи), метаданные документа (автор, дата создания и т. д. c) и т. д. Некоторые вещи, не относящиеся к модели изображений, достаточно распространены, чтобы утилита PDF to SVG могла обрабатывать их напрямую (ссылки), тогда как другие вещи не имеют эквивалента HTML и будут потеряны.

Вы можете сохранить внешний вид цифровой подписи, но действительная защита, представленная этими визуальными эффектами, будет утрачена. Сохранение этой подписи можно считать ложью о безопасности.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...