Tika-приложение извлекает страницы (числа / ключевые слова) в виде zip-файла и печатает только имена файлов внутри него. Он не возвращает точное содержимое внутри файла документа.
Я попытался использовать анализатор автоопределения, который пытался проанализировать его с помощью IWorkDocument, но не смог получить содержимое внутри него. Использование tika-app-1.22 для извлечения содержимого.
Обработчик BodyContentHandler = new BodyContentHandler ();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("Hello.pages")) {
parser.parse(stream, handler, metadata);
return handler.toString();
}
ожидаемый результат:
Lorem ipsum dolor sit amet, ....
фактический результат:
Data / 92317989_242x291px-small-17.jpeg
Data / 108151441_276x185px-small-13.jpeg
Data / 125144832_750x539px-small-11.jpeg
Data / 200250285_276x185px-small-15.jpeg
Index / Document.iwa
Index / ViewState.iwa
Index / CalculationEngine-4759.iwa
Индекс / АннотацияAuthorStorage-4758.iwa
Индекс / DocumentStylesheet-4762.iwa
Индекс / DocumentMetadata.iwa
Индекс / Метаданные.iwa
Метаданные / Properties.plist
Метаданные / DocumentIdentifier D45D90E8-2C22-4115-98BA-1EDBA675DD55
Метаданные / BuildVersionHistory.plist
Шаблон: 09_School_Report (09_School_Report (09_School_Report (09_School_Report)07-03 15:42) M7.3-5989-2
preview.jpg
preview-micro.jpg
preview-web.jpg