Парсинг Apple Pages / Numbers / Keynote с использованием Tika - PullRequest
0 голосов
/ 10 октября 2019

Tika-приложение извлекает страницы (числа / ключевые слова) в виде zip-файла и печатает только имена файлов внутри него. Он не возвращает точное содержимое внутри файла документа.

Я попытался использовать анализатор автоопределения, который пытался проанализировать его с помощью IWorkDocument, но не смог получить содержимое внутри него. Использование tika-app-1.22 для извлечения содержимого.

Обработчик BodyContentHandler = new BodyContentHandler ();

    AutoDetectParser parser = new AutoDetectParser();  
    Metadata metadata = new Metadata();  
    try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("Hello.pages")) {  
        parser.parse(stream, handler, metadata);  
        return handler.toString();  
    }  

ожидаемый результат:

Lorem ipsum dolor sit amet, ....

фактический результат:

Data / 92317989_242x291px-small-17.jpeg

Data / 108151441_276x185px-small-13.jpeg

Data / 125144832_750x539px-small-11.jpeg

Data / 200250285_276x185px-small-15.jpeg

Index / Document.iwa

Index / ViewState.iwa

Index / CalculationEngine-4759.iwa

Индекс / АннотацияAuthorStorage-4758.iwa

Индекс / DocumentStylesheet-4762.iwa

Индекс / DocumentMetadata.iwa

Индекс / Метаданные.iwa

Метаданные / Properties.plist

Метаданные / DocumentIdentifier D45D90E8-2C22-4115-98BA-1EDBA675DD55

Метаданные / BuildVersionHistory.plist

Шаблон: 09_School_Report (09_School_Report (09_School_Report (09_School_Report)07-03 15:42) M7.3-5989-2

preview.jpg

preview-micro.jpg

preview-web.jpg

...