Читай PDF через Java и получай контент HTML - PullRequest
1 голос
/ 21 мая 2010

Я хочу прочитать существующий файл PDF, получить не только текст, но и информацию о формате, такую ​​как: шрифт (жирный, курсив), абзацы, изображения, таблицы В основном я хочу написать HTML, похожий на PDF.

Есть ли библиотека кода для этого? Я ищу библиотеку с открытым исходным кодом.

С уважением, Тина Агравал

Ответы [ 2 ]

3 голосов
/ 22 августа 2012

Попробуйте PDFBox или iText . Они имеют открытый исходный код и могут обрабатывать текст, изображения, таблицы и т. Д.

0 голосов
/ 22 августа 2012

Если вам нужна точная версия страницы, вам может потребоваться создать изображение страницы и поместить на него невидимый текст. Можно увидеть некоторые идеи о том, что возможно в нашем блоге на http://www.jpedal.org/PDFblog/2012/08/4-ways-to-convert-pdf-to-html5/ с преобразованием PDF в HTML.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...