Apache Tika Server: получать макросы из офисных документов? - PullRequest
0 голосов
/ 13 апреля 2020

Я использую Apache Tika как сервис для анализа документов Office в Python, например:

url = 'http://{0}:{1}/rmeta/xml'
url = url.format(self._host, self._port)
res = requests.put(url, data=dat).json()

Я бы хотел извлечь содержимое макросов из документов, если документ содержит макрос, но не может понять, как это сделать. Apache Документация Тика не так хороша. Есть ли какой-либо заголовок или что-то, что мне нужно использовать, чтобы сервер Tika возвращал как макрос, так и содержимое документа?

1 Ответ

1 голос
/ 14 апреля 2020

Насколько я понял, проблема в том, что Tika по умолчанию не извлекает макросы из Office Documents. Чтобы сделать это именно так, мне нужно было создать собственный файл конфигурации для Tika, включив свойство extractMacros для обоих анализаторов Microsoft Office, реализованных в Tika (я не знаю, используют ли они POI или что-то в этом роде). Вот пример, как это сделать: https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros.xml

...