Есть ли библиотека Java для преобразования документа из PDF в HTML? - PullRequest
6 голосов
/ 11 декабря 2008

Реализация с открытым исходным кодом будет предпочтительнее.

Ответы [ 3 ]

2 голосов
/ 11 декабря 2008

Очевидно, что это не простая задача, форматирование PDF намного богаче, чем форматирование HTML (плюс вы должны извлекать изображения и связывать их и т. Д.).
Простое извлечение текста намного проще (хотя и не тривиально ...).
Я вижу в боковой панели вашего вопроса похожий вопрос: Преобразование PDF в HTML с Python , который указывает на библиотеку (poppler, который, по-видимому, написан на C ++, возможно, доступен с помощью JNI / JNA) и связанный вопрос, который предлагает еще больше ответов.

1 голос
/ 05 ноября 2014

Попробуйте использовать PDFBox от Apache Foundation.

1 голос
/ 11 декабря 2008

Только те, о которых я знаю, должны быть оплачены.

BFO
JPedal

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...