Какие библиотеки Python использовать для анализа файлов doc и docx? - PullRequest
0 голосов
/ 27 января 2019

Я пишу анализатор документов и документов. Необходимо получить различные метаданные о документе этих форматов. Например, для docx мне нужно получить код XML и продолжить работу с тегами. Подскажите решения, которые помогут решить мою проблему? Такие решения, как python-docx, не подходят, потому что они работают только с текстом.

1 Ответ

0 голосов
/ 27 января 2019

Если вам нужны необработанные docx данные, вы, вероятно, будете работать с ними на низком уровне, то есть откройте файл с zipfile и прочитаете мета с помощью xml etree

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...