Как извлечь информацию о форматировании текстового документа, используя Apache POI? - PullRequest
2 голосов
/ 28 марта 2011

Я использую Apache POI для извлечения информации о форматировании из файлов MS Word.

Я хочу извлечь такую ​​информацию, как наличие абзаца с маркером, цвет фона, цвет переднего плана, выравнивание и т. Д.

Для этого не так много документации или учебных пособий. Javadoc также не содержит много полезной информации.

Где я могу получить учебники / хорошую документацию, которая может помочь мне в изучении API Apache POI ??

1 Ответ

3 голосов
/ 02 апреля 2011

Для HWPF (.doc) классы, которые вы, вероятно, хотите:

В зависимости от того, какое именно свойство вы хотите, оно может быть в абзаце или свойствах символа.

Лучший пример, который я могу придумать для чтения текстового документа с помощью HWPF и получения текста, проверкистили, форматирование и т. д. - это WordExtractor от Apache Tika: https://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/microsoft/WordExtractor.java

(XWPF для .docx аналогичен)

...