Преобразовать строку Юникода в строку в Python (содержащую дополнительные символы) - PullRequest
466 голосов
/ 30 июля 2009

Как преобразовать строку Unicode (содержащую дополнительные символы, такие как £ $ и т. Д.) В строку Python?

Ответы [ 8 ]

540 голосов
/ 30 июля 2009
title = u"Klüft skräms inför på fédéral électoral große"
import unicodedata
unicodedata.normalize('NFKD', title).encode('ascii','ignore')
'Kluft skrams infor pa federal electoral groe'
306 голосов
/ 31 июля 2009

Вы можете использовать кодирование в ASCII, если вам не нужно переводить не-ASCII символы:

>>> a=u"aaaàçççñññ"
>>> type(a)
<type 'unicode'>
>>> a.encode('ascii','ignore')
'aaa'
>>> a.encode('ascii','replace')
'aaa???????'
>>>
128 голосов
/ 25 октября 2012
>>> text=u'abcd'
>>> str(text)
'abcd'

Если строка содержит только символы ascii.

111 голосов
/ 30 июля 2009

Если у вас есть строка Unicode, и вы хотите записать ее в файл или другую сериализованную форму, вы должны сначала кодировать в определенное представление, которое можно сохранить. Существует несколько распространенных кодировок Unicode, таких как UTF-16 (для большинства символов Unicode используется два байта) или UTF-8 (1-4 байта / кодовая точка в зависимости от символа) и т. Д. Чтобы преобразовать эту строку в определенную кодировку, можно использовать:

>>> s= u'£10'
>>> s.encode('utf8')
'\xc2\x9c10'
>>> s.encode('utf16')
'\xff\xfe\x9c\x001\x000\x00'

Эта необработанная строка байтов может быть записана в файл. Однако обратите внимание, что при чтении обратно вы должны знать, в какой кодировке он находится, и декодировать его, используя ту же кодировку.

При записи в файлы вы можете избавиться от процесса ручного кодирования / декодирования, используя модуль codecs . Итак, чтобы открыть файл, который кодирует все строки Unicode в UTF-8 , используйте:

import codecs
f = codecs.open('path/to/file.txt','w','utf8')
f.write(my_unicode_string)  # Stored on disk as UTF-8

Обратите внимание, что все, кто использует эти файлы, должно понимать, в какой кодировке находится файл, если они хотят их прочитать. Если вы являетесь единственным, кто выполняет чтение / запись, это не проблема, в противном случае убедитесь, что вы пишете в форме, понятной для всех, кто использует файлы.

В Python 3 эта форма доступа к файлам используется по умолчанию, а встроенная функция open будет принимать параметр кодирования и всегда переводить в / из строк Unicode (строковый объект по умолчанию в Python 3) для открытых файлов в текстовом режиме.

56 голосов
/ 30 июля 2009

Вот пример:

>>> u = u'€€€'
>>> s = u.encode('utf8')
>>> s
'\xe2\x82\xac\xe2\x82\xac\xe2\x82\xac'
5 голосов
/ 30 июля 2009

Что ж, если вы готовы / готовы перейти на Python 3 (что может и не произойти из-за обратной несовместимости с некоторым кодом Python 2), вам не нужно выполнять какое-либо преобразование; Весь текст в Python 3 представлен строками Unicode, что также означает, что синтаксис u'<text>' больше не используется. У вас также есть, по сути, строки байтов, которые используются для представления данных (которые могут быть закодированной строкой).

http://docs.python.org/3.1/whatsnew/3.0.html#text-vs-data-instead-of-unicode-vs-8-bit

(Конечно, если вы в настоящее время используете Python 3, проблема, скорее всего, связана с тем, как вы пытаетесь сохранить текст в файл.)

4 голосов
/ 19 декабря 2016

Вот пример кода

import unicodedata    
raw_text = u"here $%6757 dfgdfg"
convert_text = unicodedata.normalize('NFKD', raw_text).encode('ascii','ignore')
0 голосов
/ 10 августа 2018
import json, ast
jdata = ast.literal_eval(json.dumps(jdata)) # Removing uni-code chars
...