Как конвертировать PDF в HTML? - PullRequest
       0

Как конвертировать PDF в HTML?

1 голос
/ 19 августа 2011

Я знаю, что здесь задавались некоторые похожие вопросы, но я видел их все, и никто до сих пор не удовлетворяет меня.

Ну, я пробовал xpdf и pdftohtml, оба они великолепны, но старая и новая версия PDF, похоже, не будут работать.

Моя проблема состоит в том, чтобы найти способ, который позволил бы мне конвертировать любой PDF или Doc в HTML, сохраняя при этом стиль и структуру. Если у кого-то есть что-то, то даже заплатил за него идеально.

Ответы [ 2 ]

2 голосов
/ 30 августа 2011

Ну, я попробовал некоторые библиотеки, исключительно для Linux, но вот мой промежуточный вывод.

PDFtoHTML слишком стар и не учитывает все новые спецификации PDF, например, PDF 1.7 (в основном потому, что он использует xpdf 2.02, в то время как xpdf уже находится в его 3-й версии)

Вместо PDFTOHTML я нашел Poppler , который продолжает разработку PDFtoHTML, а также несколько новых полезных утилит. На самом деле, в Open Source Poppler лучше всего отразил мой сложный PDF. Здесь один почти равный, который я должен использовать.

Наконец, вот что я собираюсь использовать. ImageMagick + Poppler. Я преобразую свой PDF в изображения и буду использовать вывод XML из Poppler из PDFtoHTML, чтобы добавить новый слой на мое изображение.

1 голос
/ 02 декабря 2011

Как и вы, я был в поиске инструмента автоматического преобразования из PDF в HTML или даже лучше XHTML. Ну, это были только две стороны, но в конце концов http://www.pdfonline.com (Online PDF To HTML) сделали лучшую работу для меня. Он даже способен фильтровать и корректно отображать таблицы и параграфы, а не только фразы!

Все же этого было недостаточно для моей работы, поэтому я сгенерировал файл шаблона вручную.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...