Question

Я использую Apache Tika для извлечения метаданных из документов.В основном меня интересует настройка базового дублированного ядра, такого как Автор, Заголовок, Дата и т. Д. Меня не интересует содержание документов.В настоящее время я просто делаю обычные вещи:

 FileInputStream fis = new FileInputStream( uploadedFileLocation );
 // Tika parsing
 Metadata metadata = new Metadata();
 ContentHandler handler = new BodyContentHandler();
 AutoDetectParser parser = new AutoDetectParser();
 parser.parse(fis, handler, metadata);

Есть ли какой-нибудь способ сказать Тике не анализировать содержимое?Я надеюсь, что это ускорит и сэкономит память.

Apache Tika: анализ только метаданных без извлечения контента

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Apache Tika: анализ только метаданных без извлечения контента

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы