Apache Tika для анализа только документов Office - исключения для сборки - PullRequest
0 голосов
/ 10 июня 2019

Я хотел бы проанализировать файлы в text / xml.

Мне действительно нужно только проанализировать документы Microsoft Office (в частности, Microsoft Word).

В настоящее время я включаю все tika-parsersзависимость в моем приложении.

Поскольку это тяжело и включает в себя множество вещей, которые мне не нужны, есть ли список модулей, которые я могу безопасно исключить, если меня интересует только анализ документов Office?

1 Ответ

0 голосов
/ 17 июня 2019

Существует версия Tika , которая разбивает библиотеки на модули в зависимости от типов файлов, которые они анализируют.

Хотя кажется, что эта версия больше не обновляется, ее можно использовать в качестве руководства для определения, какие модули необходимы для какого типа файлов вы анализируете.

Например, глядя на pom.xml из tika-parser-advanced-module, вы можете видеть, что это зависит от opennlp-tools, а tika-parser-office-module - нет. Поэтому, если вас интересует только анализ офисных документов, вы можете исключить opennlp-tools.

Кроме того, поиск ivy:report (для maven - дерево зависимостей) может помочь.

Если у кого-то есть какие-либо комментарии по этому поводу, я все еще открыт для предложений / комментариев.

...