Я запускаю немодифицированный экземпляр JAX-RS тика-сервера Apache 1.22 и использую его в качестве службы конечной точки HTTP, куда я публикую файлы (в основном Office, PDF и RTF) и получаю текстовые передачи обратно с HTTPзапросы (используя заголовок Accept="text/plain"
) из нашего приложения.
Начиная с версии Tika 1.15, по умолчанию теперь используется «извлечение всех встроенных документов» TIKA-2096 .
Я хочу иметь возможность отключить это поведение на нашем tika-сервере, чтобы внедренные документы НЕ извлекались, и я получаю только текстовое представление основного содержимого документа.
Возможно ли это сделать черезtika-config.xml
файл, или мне нужно сделать пользовательскую сборку и подкласс EmbeddedDocumentExtractor
, чтобы он ничего не делал?
Ответ на tika-parser-exclude-pdf-attachments означает, что вы можете отключить это поведение с помощью подкласса EmbeddedDocumentExtractor
, но я хотел бы проверить, возможно ли это сделать с помощью tika-config.xml
без необходимости пользовательской сборки сервера tika.
Я смотрел на Настройка Tika , но здесь нет упоминания о встроенных документах.