Разбор PDF-файла и запись содержимого в текстовый файл с использованием Java - PullRequest
7 голосов
/ 05 февраля 2009

как разобрать файл PDF и записать содержимое в файл слова с помощью Java?

Ответы [ 4 ]

9 голосов
/ 05 февраля 2009

Для анализа файла PDF в Java вы можете использовать Apache PDFBox: http://incubator.apache.org/pdfbox/

Для чтения / записи файлов формата Word (или других файлов Office) в Java попробуйте POI: http://poi.apache.org/

Оба свободны.

5 голосов
/ 05 февраля 2009

Попробуйте библиотеку Java iText :

iText - это идеальная библиотека для разработчиков, желающих усовершенствовать веб- и другие приложения с помощью динамической генерации PDF-документов и / или манипуляций .

Может использоваться для вашего шага разбора.

Что касается генерации документов Word - API Java * OpenOffice 1014 * может генерировать документы, совместимые с Word (нет личного опыта работы с этим API).

3 голосов
/ 05 февраля 2009

Вы можете попробовать любой из этих:

Когда вы читаете содержимое файла PDF, вы можете также сохранить его в ODT-файле или текстовом файле. Для файла ODT попробуйте http://odftoolkit.openoffice.org.

Лучший!

0 голосов
/ 12 августа 2010

Вы можете использовать iText, если исходный PDF в основном текстовый. Изображения и тому подобное довольно трудно обрабатывать при разборе. Если это только текст, это всего лишь 10 строк кода. См. Примеры в руководстве по iText.

Для записи файлов слов есть только Apache POI. Это может быть немного сложно понять, но для такой простой задачи это не должно быть проблемой.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...