У нас есть некоторый текст, содержащий немецкие умлауты, представленные, например, с помощью 'a' + ДИАРЕЗ СОЧЕТАНИЯ ($ cc $ 88).
Есть идеи, как правильно преобразовать такой текст в utf8?
Сначала, если это еще не unicode, то декодируйте его. Во-вторых, unicodedata.normalize(). В-третьих, кодировать.
unicode
unicodedata.normalize()