Я написал скрипт для чтения XML-файлов с использованием minidom:
from xml.dom.minidom import parse
for File in Data['FileList']:
Xml = parse(File)
#do something
, который работает нормально, но некоторые парни создают XML-файлы, определяющие кодировку UTF-8 в XML и использующие Umlaute в тегах, поэтому я натолкнулся наxml.parsers.expat.ExpatError: неправильно сформирован (недопустимый токен).
Если я вручную изменяю в XML на кодировку = "ISO-8859-1", он работает нормально.
Есть ли более элегантный способ изменить кодировку, вместо редактирования файлов XML, например, сказать minidom использовать кодировку, отличную от определенной в XML?