Ваш ввод не является документом UTF-8. 0xA0 будет следующим байтом последовательности из 2–4 байтов (0xA0 равен 10100000
, все начальные байты начинаются с 11
, а все однобайтовые символы начинаются с нуля), но здесь он отображается как ведущий байт.
Это, вероятно, означает, что ваш документ либо поврежден (согласно определениям XML, он не правильно сформирован), либо он был создан с использованием кодовой страницы (или, что очень маловероятно, UTF-16).
Вы должны будете сообщить вашему синтаксическому анализатору XML, как переводить символы за пределы диапазона 0-128 ASCII, или удалять ошибочные последовательности байтов, как считаете нужным.
Альтернативой является использование более терпимого парсера, такого как Beautiful Soup.
Вы должны быть очень рады, что получили сообщение об ошибке - единственное, что может произойти, - это тихая коррупция.