Замена символов Юникода для сопоставления текста - PullRequest
1 голос
/ 07 июня 2010

Я получаю удовольствие от источников текста в Unicode (все правильно кодируются), и я хочу сопоставить имена. Классическая проблема: один источник работает правильно, у другого более сглаженные имена:

"Эльблонг" против "Эльблонга" (см. Символ а)

Как я могу "сгладить" ą, á, â или à для лучшего соответствия? Есть ли Unicode для сопоставления ascii таблиц?

1 Ответ

2 голосов
/ 07 июня 2010

Попробуйте

>>> unicodedata.normalize('NFKD', u'Elbląg').encode('ascii', 'ignore')
'Elblag'
...