Как я могу конвертировать PDF в HTML? - PullRequest
27 голосов
/ 28 октября 2009

Какие есть хорошие библиотеки на любом языке для преобразования PDF в HTML?

Ответы [ 8 ]

5 голосов
/ 23 ноября 2009

PDFBox в apache имеет возможность извлечения html. http://pdfbox.apache.org/

3 голосов
/ 29 октября 2009

Если вы работаете над Windows-боксом, я думаю, Амюни также имеет библиотеку для этого. Их PDF Document Convertor доступен в виде DLL, может широко использоваться среди языков, поддерживаемых Visual Studio, и может конвертировать в RTF, TML, EXCEL, JPEG и TIFF.

1 голос
/ 10 апреля 2014

В linux установите pdftohtml - для пакетного преобразования всех файлов в папке используйте:

ls *.pdf | xargs -I{} pdftohtml {}

Это создаст HTML-сайт со всеми ссылками и изображениями из оригинальных документов. Каждая страница в отдельном HTML-файле. Очень полезно конвертировать проектную документацию для поиска файлов по фразе, используя общий поиск файлов системы.

1 голос
/ 04 октября 2010

Программа pdftohtml преобразует pdf в html и xml и сохраняет информацию о положении текста, которая полезна для очистки таблиц.

Кажется, он основан на библиотеке xpdf и также имеет двоичный файл windows.

1 голос
/ 30 октября 2009

http://www.lowagie.com/iText/ Библиотека с открытым исходным кодом для Java и C #

0 голосов
/ 30 октября 2009

Учитывая неопределенность исходного вопроса, я собираюсь продолжить и дать решение, которое будет работать с любым языком, который может выполнять приложения командной строки. Хотя установка может быть немного сложной, OpenOffice может быть запущен на сервере в автономном режиме и с помощью jodconverter может конвертировать любой формат файла в любой другой формат файла (ну, любые преобразования формата, которые может обрабатывать openoffice).

Вот несколько ссылок, которые помогут с настройкой:

0 голосов
/ 28 октября 2009

, если вы ищете способ конвертировать PDF в HTML один или два раза, тогда я рекомендую Adobe Online Conversion

Если вам нужен API, тогда http://www.pdfonline.com/ имеет SDK, который соответствует вашим потребностям.

Если вам нужна библиотека, пожалуйста, сообщите нам, какой серверный язык вы предпочитаете.

0 голосов
/ 28 октября 2009

В Perl вы можете использовать плагин SWISH :: Filter SWISH :: Filters :: Pdf2HTML . (Требуется пакет xpdf .)

Обратное (HTML в PDF), см. этот вопрос .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...