Я использую Apache Tika для извлечения метаданных из документов.В основном меня интересует настройка базового дублированного ядра, такого как Автор, Заголовок, Дата и т. Д. Меня не интересует содержание документов.В настоящее время я просто делаю обычные вещи:
FileInputStream fis = new FileInputStream( uploadedFileLocation );
// Tika parsing
Metadata metadata = new Metadata();
ContentHandler handler = new BodyContentHandler();
AutoDetectParser parser = new AutoDetectParser();
parser.parse(fis, handler, metadata);
Есть ли какой-нибудь способ сказать Тике не анализировать содержимое?Я надеюсь, что это ускорит и сэкономит память.