Текстовые парсеры Java с открытым исходным кодом - PullRequest
0 голосов
/ 22 июня 2011

Существует ли один текстовый анализатор Java, который можно использовать для анализа документов Office (windows), документов OpenOffice и PDF?Иначе мне нужно использовать что-то вроде Apache POI для документов Word и другие библиотеки для OpenOffice и PDF?Если да, то какие варианты лучше всего подходят для OpenOffice и PDF?

Ответы [ 2 ]

2 голосов
/ 23 июня 2011

Apache Tika :

Набор инструментов Apache Tika ™ обнаруживает и извлекает метаданные и структурированный текстовый контент из различных документов с использованием существующих библиотек синтаксического анализатора.

Не уверен, подходит ли это как "одиночный" для ваших целей.

2 голосов
/ 22 июня 2011

Если задание читает документы PDF, iText - ваш лучший выбор. Для документов на основе Microsoft Office и OpenOffice (LibreOffice) POI будет моим решением.

...