Как преобразовать массив значений тамильского Unicode в тамильскую строку в Python с пробелами? - PullRequest
6 голосов
/ 17 марта 2012

Вот список тамильских кодов Unicode

[u '\ u0b9a', u '\ u0b9f', u '\ u0bcd', u '\ u0b9f', u '\ u0b9a', u '\ u0baa ', u' \ u0bc8 ', u' \ u0baf ', u' \ u0bbf ', u' \ u0bb2 ', u' \ u0bcd ', u' \ u0ba8 ', u' \ u0bc7 ', u' \ u0bb1', u' \ u0bcd ', u' \ u0bb1 ', u' \ u0bc1]

Как я могу преобразовать его в читаемую строку?

1 Ответ

8 голосов
/ 17 марта 2012

Преобразование не требуется.

    >>> alist = [
            u'\u0b9a', u'\u0b9f', u'\u0bcd', u'\u0b9f', u'\u0b9a',
            u'\u0baa', u'\u0bc8', u'\u0baf', u'\u0bbf', u'\u0bb2',
            u'\u0bcd', u'\u0ba8', u'\u0bc7', u'\u0bb1', u'\u0bcd',
            u'\u0bb1', u'\u0bc1',
            ]
    >>> print u''.join(alist)
    சட்டசபையில்நேற்று
    >>> 

Обновление: Возможно, вы хотите это:

>>> print u' '.join(alist)
ச ட ் ட ச ப ை ய ி ல ் ந ே ற ் ற ு

или это:

>>> import unicodedata
>>> for c in alist:
    print repr(c), c, unicodedata.category(c)


u'\u0b9a' ச Lo
u'\u0b9f' ட Lo
u'\u0bcd' ் Mn
u'\u0b9f' ட Lo
u'\u0b9a' ச Lo
u'\u0baa' ப Lo
u'\u0bc8' ை Mc
u'\u0baf' ய Lo
u'\u0bbf' ி Mc
u'\u0bb2' ல Lo
u'\u0bcd' ் Mn
u'\u0ba8' ந Lo
u'\u0bc7' ே Mc
u'\u0bb1' ற Lo
u'\u0bcd' ் Mn
u'\u0bb1' ற Lo
u'\u0bc1' ு Mc
>>> 
...