Как конвертировать PDF в HTML? - PullRequest
19 голосов
/ 03 декабря 2011

Существует ли надлежащая библиотека, которую я могу использовать для преобразования PDF в HTML или какой-либо другой формат, который можно легко преобразовать в HTML?

Я искал похожие вопросы, но безуспешно.

Я хочу иметь возможность извлекать текст из PDF, возможно, из изображений. Я не собираюсь вставлять PDF в HTML.

Ответы [ 7 ]

8 голосов
/ 07 июня 2012

Как я уже упоминал в комментарии выше, определенно можно конвертировать pdf в html, используя инструмент Able2Extract7, который можно загрузить с здесь

Я использую этот инструмент почти 2 года, и я очень доволен им. Этот инструмент позволяет конвертировать PDF в Word, Excel, PowerPoint, Publisher, HTML , OO и т. Д. См. Скриншот

enter image description here

Примечание об импорте : этот инструмент не является бесплатным.

НТН

5 голосов
/ 28 ноября 2016

Если вы работаете в Linux, попробуйте pdftohtml:

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

Конвертер электронных книг с открытым исходным кодом Калибр также может конвертировать PDF-файлы в HTML и доступен в MacOS, Windows и Linux.

3 голосов
/ 18 января 2012

Технически невозможно просто «конвертировать» PDF-файл в HTML. Формат PDF больше похож на «холст», где вы «размещаете» свои текстовые блоки и изображения, в то время как HTML «CSS» или множество таблиц «размещают» блоки. Более того, файлы PDF встраивают изображения, тогда как HTML просто вызывает другие файлы.
Есть много других примеров отличий, но, по сути, это все равно, что попросить преобразовать изображение или видео с текстом в нем.

Однако вы можете прочитать файл PDF, а затем извлечь из него текст и изображения, используя библиотеки или другие передовые методы. .Net имеет несколько библиотек, например: http://forums.asp.net/post/2167442.aspx

Если вам нужно конвертировать только один файл один раз, вы можете открыть pdf-файл, например, в Illustrator, а затем экспортировать его в html. Или вы можете выбрать весь документ (Ctrl + A), скопировать его и вставить его в Word, а затем сохранить результат в HTML. Это будет далеко от совершенства, но это будет начало.

2 голосов
/ 23 ноября 2016

Скачать

  • pdfbox-2.0.3.jar
  • fontbox-2.0.3.jar
  • preflight-2.0.3.jar
  • xmpbox-2.0.3.jar
  • pdfbox-tools-2.0.3.jar
  • pdfbox-debugger-2.0.3.jar

из http://pdfbox.apache.org/

 import java.io.InputStream;
 import java.io.IOException;
 import org.apache.pdfbox.pdmodel.PDDocument;
 import org.apache.pdfbox.tools.PDFText2HTML;

    // .....
    try {
        InputStream is = // ..... Read PDF file
        PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
        PDFText2HTML converter = new PDFText2HTML(); // the converter
        String html = converter.getText(pdd); // That's it!
        pdd.close();
        is.close();
    } catch (IOException ioe) {
        // ......
    }

Обратите внимание: изображения не попадают в вывод HTML.

1 голос
/ 09 июня 2017

Это не так сложно конвертировать PDF в HTML. Существует множество онлайн-вариантов, которые, однако, могут предоставлять ваши данные третьим лицам. Выполните следующие действия, и результат будет отличным.

  1. Откройте страницу PDF2HTMLEX . (Вы можете либо перейти к следующим шагам, которые я упомянул, либо следовать указаниям на странице.)

  2. Пакет доступен для загрузки для Windows здесь .

    Из многих доступных опций я рекомендую скачать "pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip (pdf2htmlEx.exe упакован с UPX)"

  3. После скачивания и распаковки конвертация находится всего в одной команде cmd.

    C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
    

    Окончательная команда:

    pdf2htmlEX.exe c:\1\abc.pdf
    

    (Конечно, вы можете сократить имя папки, однако я сохранил его таким же, как вы увидели бы после разархивирования загрузки. Я предполагаю, что вы можете изменить каталог в cmd на нужную папку или же Google как.)

abc.pdf будет преобразован в HTML и будет сохранен как abc.html в той же папке, что и ваш exe.

0 голосов
/ 18 июня 2018

Не уверен, что это может быть полезно, но если вам нужно однократное преобразование, вы можете попробовать этот бесплатный онлайн-инструмент: https://www.readkong.com/

Использовал этот сайт несколько раз. Это производит HTML, который идентичен исходному файлу PDF. Никакой уродливой и испорченной разметки, никакого html-мэшапа и т. Д., Даже для очень сложного pdf.

0 голосов
/ 08 марта 2012

Да, это определенно возможно. Если вы используете Ubuntu Linux

apt-get install htmltopdf

тогда

htmltopdf myFile.pdf myFile.htm -c -noframes

Если вы хотите увидеть, что означают все флаги, просто наберите

htmltopdf

Если вы не используете Linux, существует множество инструментов, которые вы можете использовать, чтобы это произошло.

...