Чтобы извлечь все вхождения текста из файлов Word .doc и .docx для crgrep , я использовал источник Apache Tika в качестве ссылки на то, как правильно использовать API-интерфейсы Apache POI. , Это полезно, если вы хотите использовать POI напрямую и не зависеть от Tika.
Для файлов Word .docx взгляните на этот класс Tika:
org.apache.tika.parser.microsoft.ooxml.XWPFWordExtractorDecorator
если вы игнорируете XHTMLContentHandler
и форматируете код, вы можете увидеть, как правильно перемещаться по XWPFDocument
с помощью POI.
Для файлов .doc этот класс полезен:
org.apache.tika.parser.microsoft.WordExtractor
оба из tika-parsers-1.x.jar
. Простой способ получить доступ к коду Tika через ваши зависимости maven - это временно добавить Tika в ваш файл pom.xml, например
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.7</version>
</dependency>
пусть ваша IDE разрешит подключенный источник и перейдет к указанным выше классам.