Разбор MS Visio XML с Python - ElementTree - PullRequest
0 голосов
/ 03 марта 2020

Я пытаюсь перевести длинный документ MS Visio. Я распаковал файл VCDX и восстановил десятки файлов xml, каждый из которых представляет страницу в документе Visio. Следующими шагами будет извлечение текста, подача его в Google Translate и, наконец, повторная вставка в документ

Я использую ElementTree, но не могу получить доступ к текстовому «контенту».

Структура вокруг текста в файлах XML:

<Text>
   <cp IX='0'/>
   <pp IX='0'/>
   <tp IX='0'/>Here is the text 
   <cp IX='1'/>It could also be here
</Text>

Эти cp, pp, tp форматируют информацию. Я не знаю, как справиться с этим.

Мой код:

tree = ET.parse('page1.xml')
root = tree.getroot()

for content in root.iter('{http://schemas.microsoft.com/office/visio/2012/main}Text'):
    print(content.text)

дает в результате

None
None
None
None
...