Я пытаюсь перевести длинный документ MS Visio. Я распаковал файл VCDX и восстановил десятки файлов xml, каждый из которых представляет страницу в документе Visio. Следующими шагами будет извлечение текста, подача его в Google Translate и, наконец, повторная вставка в документ
Я использую ElementTree, но не могу получить доступ к текстовому «контенту».
Структура вокруг текста в файлах XML:
<Text>
<cp IX='0'/>
<pp IX='0'/>
<tp IX='0'/>Here is the text
<cp IX='1'/>It could also be here
</Text>
Эти cp, pp, tp форматируют информацию. Я не знаю, как справиться с этим.
Мой код:
tree = ET.parse('page1.xml')
root = tree.getroot()
for content in root.iter('{http://schemas.microsoft.com/office/visio/2012/main}Text'):
print(content.text)
дает в результате
None
None
None
None