Войти

Запомнить

Регистрация

PullRequest

Лента
Топ
Теги
Новая

Новая

Andreas Jung 21 апреля 2011 10

Преобразование текста, содержащего КОМБИНИРУЮЩИЙ ДИАРЕЗИС, в UTF-8

4 голосов

Andreas Jung / 21 апреля 2011

У нас есть некоторый текст, содержащий немецкие умлауты, представленные, например, с помощью 'a' + ДИАРЕЗ СОЧЕТАНИЯ ($ cc $ 88).

Есть идеи, как правильно преобразовать такой текст в utf8?

Python
Unicode
UTF-8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

4 голосов

Ignacio Vazquez-Abrams / 21 апреля 2011

Сначала, если это еще не unicode, то декодируйте его. Во-вторых, unicodedata.normalize(). В-третьих, кодировать.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

Как я могу «перевести» все коды Юникода в строке в фактические символы, используя Python 3?
Прочитайте .txt файл в Python, избегая специальных символов для замены оригинальных символов внутри файла
Excel CSV конвертирует некоторые японские символы в некоторые странные символы
Поддерживать двоичное представление при декодировании недопустимого UTF-8 в Swift
Как указать код utf-8 в литералах QString?
Преобразование Юникода, хранящегося как переменная, в обычный текст (например, "\ u0044" в "D")
Кодировка UTF-16 - Зачем использовать сложные суррогатные пары?
Как ограничить текст в UTF-8 только символами скрипта?
array_filter, кажется, не работает для слов, имеющих апостроф и тире
R: Нужен эффективный способ преобразования цветных символов эмодзи utf-8 в их скин по умолчанию

...