Существует версия Tika , которая разбивает библиотеки на модули в зависимости от типов файлов, которые они анализируют.
Хотя кажется, что эта версия больше не обновляется, ее можно использовать в качестве руководства для определения, какие модули необходимы для какого типа файлов вы анализируете.
Например, глядя на pom.xml
из tika-parser-advanced-module
, вы можете видеть, что это зависит от opennlp-tools
, а tika-parser-office-module
- нет. Поэтому, если вас интересует только анализ офисных документов, вы можете исключить opennlp-tools
.
Кроме того, поиск ivy:report
(для maven - дерево зависимостей) может помочь.
Если у кого-то есть какие-либо комментарии по этому поводу, я все еще открыт для предложений / комментариев.