Читать документы Microsoft Word в простой текст (DOC, DOCX) на Java - PullRequest
5 голосов
/ 15 февраля 2010

Я ищу что-то на Java для чтения в документах Word для обработки их текста ... все, что мне нужно, это текст, ничего особенного. Я знаю об Apache POI, но сейчас он не включает поддержку DOCX, что-нибудь там?

Ответы [ 4 ]

5 голосов
/ 01 марта 2010

Если вам не требуется форматировать информацию, изображения и все другие причудливые вещи, тогда работа намного проще. Подойдет всего 5-10 строк кода.

  1. Рассматривать DOCX как zip-файл. Он состоит из нескольких файлов, которые включают в себя «document.xml». Используйте ZipInputStream и распакуйте этот файл в одиночку. (вы можете использовать вашу любимую zip-утилиту и открыть docx, и убедитесь сами!)
  2. Используйте SAX-парсер и читайте содержимое между узлами body / p / r / t - вуаля, вы получили текст!

Это применимо, только если вам нужен только текст .

3 голосов
/ 15 февраля 2010

С некоторым поиском я нашел OpenXML4J . Это может решить вашу проблему. Я не использовал это, пока не уверен, что кто-то в сообществе будет лучше понимать.

Примечание. Это дублирующий вопрос. У этого есть решение плюс немного обсуждения. Ссылка на вопрос.

2 голосов
/ 03 сентября 2012

Попробуйте apache poi - он может обрабатывать doc, docx, xls, xlsx, ppt, pptx.

Еще одно решение на уровне производства - это OpenOffice в автономном режиме, которое можно использовать даже в сценарии на стороне сервера.

1 голос
/ 31 августа 2010
...