Есть ли способ отключить разбор встроенных документов на тика-сервере? - PullRequest
0 голосов
/ 10 октября 2019

Я запускаю немодифицированный экземпляр JAX-RS тика-сервера Apache 1.22 и использую его в качестве службы конечной точки HTTP, куда я публикую файлы (в основном Office, PDF и RTF) и получаю текстовые передачи обратно с HTTPзапросы (используя заголовок Accept="text/plain") из нашего приложения.

Начиная с версии Tika 1.15, по умолчанию теперь используется «извлечение всех встроенных документов» TIKA-2096 .

Я хочу иметь возможность отключить это поведение на нашем tika-сервере, чтобы внедренные документы НЕ извлекались, и я получаю только текстовое представление основного содержимого документа.

Возможно ли это сделать черезtika-config.xml файл, или мне нужно сделать пользовательскую сборку и подкласс EmbeddedDocumentExtractor, чтобы он ничего не делал?

Ответ на tika-parser-exclude-pdf-attachments означает, что вы можете отключить это поведение с помощью подкласса EmbeddedDocumentExtractor, но я хотел бы проверить, возможно ли это сделать с помощью tika-config.xml без необходимости пользовательской сборки сервера tika.

Я смотрел на Настройка Tika , но здесь нет упоминания о встроенных документах.

...