Как проанализировать XML с помощью Latin-1 Hex внутри <> - PullRequest
0 голосов
/ 08 февраля 2019

У меня есть XML, который выглядит так:

<?xml version="1.0" encoding="ISO-8859-1" standalone="yes"?>
    <body>
        <t id="1" word="w<E4>re"/>
    </body>
"w<E4>re" 

- это немецкое слово "wäre".Когда я пытаюсь разобрать этот xml с python lxml, я просто получаю "w" вместо полного слова, даже если я применяю encoding = "iso-8859-1":

from lxml import etree as ET
for event, elem in ET.iterparse("myXML.xml", recover=True, encoding="iso-8859-1"):
    if elem.tag == 't':
    print(elem.attrib['word'])

Как мне получить"wäre"?

...