Если вам нужны данные со странными символами, которые вы могли бы, вместо того, чтобы просто удалить их, преобразуйте их в коды, понятные синтаксическому анализатору XML.
Вы можете взглянуть на уникальные данные .Пакет , особенно метод нормализации.
Я сам этим не пользовался, поэтому не могу вам все рассказать, но вы можете еще раз спросить здесь на SO, если решите, что собираетесьпреобразовать и сохранить эти данные.
>>> import unicodedata
>>> unicodedata.normalize("NFKD" , u"ไภเฟล &")
u'a\u03001\u201ea\u0300 \u0327 a\u03001\u20aca\u0300 \u0327Y\u0308a\u0300 \u0327\xa5 &'