Я ищу что-то на Java для чтения в документах Word для обработки их текста ... все, что мне нужно, это текст, ничего особенного. Я знаю об Apache POI, но сейчас он не включает поддержку DOCX, что-нибудь там?
Если вам не требуется форматировать информацию, изображения и все другие причудливые вещи, тогда работа намного проще. Подойдет всего 5-10 строк кода.
Это применимо, только если вам нужен только текст .
С некоторым поиском я нашел OpenXML4J . Это может решить вашу проблему. Я не использовал это, пока не уверен, что кто-то в сообществе будет лучше понимать.
Примечание. Это дублирующий вопрос. У этого есть решение плюс немного обсуждения. Ссылка на вопрос.
Попробуйте apache poi - он может обрабатывать doc, docx, xls, xlsx, ppt, pptx.
Еще одно решение на уровне производства - это OpenOffice в автономном режиме, которое можно использовать даже в сценарии на стороне сервера.
Вы можете попробовать docx4j; см http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java