Apache Tika: анализ только метаданных без извлечения контента - PullRequest
4 голосов
/ 08 февраля 2012

Я использую Apache Tika для извлечения метаданных из документов.В основном меня интересует настройка базового дублированного ядра, такого как Автор, Заголовок, Дата и т. Д. Меня не интересует содержание документов.В настоящее время я просто делаю обычные вещи:

 FileInputStream fis = new FileInputStream( uploadedFileLocation );
 // Tika parsing
 Metadata metadata = new Metadata();
 ContentHandler handler = new BodyContentHandler();
 AutoDetectParser parser = new AutoDetectParser();
 parser.parse(fis, handler, metadata);

Есть ли какой-нибудь способ сказать Тике не анализировать содержимое?Я надеюсь, что это ускорит и сэкономит память.

...