Преобразование текста, содержащего КОМБИНИРУЮЩИЙ ДИАРЕЗИС, в UTF-8 - PullRequest
4 голосов
/ 21 апреля 2011

У нас есть некоторый текст, содержащий немецкие умлауты, представленные, например, с помощью 'a' + ДИАРЕЗ СОЧЕТАНИЯ ($ cc $ 88).

Есть идеи, как правильно преобразовать такой текст в utf8?

1 Ответ

4 голосов
/ 21 апреля 2011

Сначала, если это еще не unicode, то декодируйте его. Во-вторых, unicodedata.normalize(). В-третьих, кодировать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...