Поиск файлов Docx в Java - PullRequest
0 голосов
/ 07 июля 2011

Я пишу заявку на поиск Содержимого документов я уже написал код для поиска документов, которые можно редактировать с помощью блокнота.

Я также хочу сделать то же самое для файлов docx. После некоторого исследования я придумал эти две вещи

  1. http://www.infoq.com/articles/cracking-office-2007-with-java этот метод требует от меня извлечения файла docx и последующего поиска в файлах xml, однако это потребует дополнительных затрат на часть извлечения, и, честно говоря, я не знаю, как обрабатывать файл xml (отбрасывая содержимое атрибутов и т. д.)

  2. http://www.javadocx.com/download этот метод позволяет мне импортировать jar-библиотеку в мой проект, и я могу создать с ее помощью файлы docx, но я не понимаю, как открыть файлы docx, используя ее

Кто-нибудь может порекомендовать мне альтернативный метод для выполнения того же действия или помочь с двумя вышеупомянутыми методами?

1 Ответ

1 голос
/ 08 июля 2011

Попробуйте http://tika.apache.org/ или docx4j или POI.

...