@ gagravarr, мы изменили это поведение с помощью TIKA-2096 , Tika 1.15.По умолчанию теперь «извлечь все внедренные документы».Чтобы избежать анализа вложенных документов, позвоните:
parseContext.set(Parser.class, new EmptyParser())
Или подклассу EmbeddedDocumentExtractor
, чтобы ничего не делать, и отправьте это через ParseContext
.
Если вы использовалиTikaEntityProcessor
в Solr DIH, я бы установил extractEmbedded
на false
, но это не так;и, пожалуйста, не надо.:)
Итак, я не думаю, что есть простой способ отключить разбор встроенных документов только для PDF, и я не уверен, что вы захотите.Что, если бы к файлу PDF был прикреплен файл MSWord, например?
Если вы хотите игнорировать .joboptions
, вы можете использовать пользовательский EmbeddedDocumentExtractor
.