Question

У меня есть эта строка, которая была декодирована из Quoted-printable в ISO-8859-1 с помощью модуля электронной почты. Это дает мне строки типа «\ xC4pple», которые соответствуют «Äpple» (Apple на шведском языке). Однако я не могу преобразовать эти строки в UTF-8.

>>> apple = "\xC4pple"
>>> apple
'\xc4pple'
>>> apple.encode("UTF-8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 0: ordinal not in     range(128)

Что мне делать?

Brian M. Hunt · Answer 1 · 30 июня 2011

Это распространенная проблема, поэтому здесь приведена сравнительно подробная иллюстрация.

Для строк, не относящихся к юникоду (т. Е. Без префикса u, например u'\xc4pple'), необходимо декодировать из нативной кодировки (iso8859-1 / latin1, если не изменено с помощью загадочной функции sys.setdefaultencoding) на unicode, а затем кодировать в набор символов, который может отображать символы, которые вы хотите, в этомcase я бы порекомендовал UTF-8.

Во-первых, вот удобная служебная функция, которая поможет осветить шаблоны строки Python 2.7 и Unicode:

>>> def tell_me_about(s): return (type(s), s)

Простая строка

>>> v = "\xC4pple" # iso-8859-1 aka latin1 encoded string

>>> tell_me_about(v)
(<type 'str'>, '\xc4pple')

>>> v
'\xc4pple'        # representation in memory

>>> print v
?pple             # map the iso-8859-1 in-memory to iso-8859-1 chars
                  # note that '\xc4' has no representation in iso-8859-1, 
                  # so is printed as "?".

Декодирование строки iso8859-1 - преобразование простой строки в Unicode

>>> uv = v.decode("iso-8859-1")
>>> uv
u'\xc4pple'       # decoding iso-8859-1 becomes unicode, in memory

>>> tell_me_about(uv)
(<type 'unicode'>, u'\xc4pple')

>>> print v.decode("iso-8859-1")
Äpple             # convert unicode to the default character set
                  # (utf-8, based on sys.stdout.encoding)

>>> v.decode('iso-8859-1') == u'\xc4pple'
True              # one could have just used a unicode representation 
                  # from the start

Еще немного иллюстрации - с «Ä»

>>> u"Ä" == u"\xc4"
True              # the native unicode char and escaped versions are the same

>>> "Ä" == u"\xc4"  
False             # the native unicode char is '\xc3\x84' in latin1

>>> "Ä".decode('utf8') == u"\xc4"
True              # one can decode the string to get unicode

>>> "Ä" == "\xc4"
False             # the native character and the escaped string are
                  # of course not equal ('\xc3\x84' != '\xc4').

Кодировка в UTF

>>> u8 = v.decode("iso-8859-1").encode("utf-8")
>>> u8
'\xc3\x84pple'    # convert iso-8859-1 to unicode to utf-8

>>> tell_me_about(u8)
(<type 'str'>, '\xc3\x84pple')

>>> u16 = v.decode('iso-8859-1').encode('utf-16')
>>> tell_me_about(u16)
(<type 'str'>, '\xff\xfe\xc4\x00p\x00p\x00l\x00e\x00')

>>> tell_me_about(u8.decode('utf8'))
(<type 'unicode'>, u'\xc4pple')

>>> tell_me_about(u16.decode('utf16'))
(<type 'unicode'>, u'\xc4pple')

Отношения между юникодом и UTF и латиницей1

>>> print u8
Äpple             # printing utf-8 - because of the encoding we now know
                  # how to print the characters

>>> print u8.decode('utf-8') # printing unicode
Äpple

>>> print u16     # printing 'bytes' of u16
���pple

>>> print u16.decode('utf16')
Äpple             # printing unicode

>>> v == u8
False             # v is a iso8859-1 string; u8 is a utf-8 string

>>> v.decode('iso8859-1') == u8
False             # v.decode(...) returns unicode

>>> u8.decode('utf-8') == v.decode('latin1') == u16.decode('utf-16')
True              # all decode to the same unicode memory representation
                  # (latin1 is iso-8859-1)

Исключения Unicode

 >>> u8.encode('iso8859-1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0:
  ordinal not in range(128)

>>> u16.encode('iso8859-1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xff in position 0:
  ordinal not in range(128)

>>> v.encode('iso8859-1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 0:
  ordinal not in range(128)

Можно обойти их путем преобразования изконкретная кодировка (латинский-1, utf8, utf16) для Unicode, например u8.decode('utf8').encode('latin1').

Поэтому, возможно, можно нарисовать следующие принципы и обобщения:

тип str - это набор байтов, который может иметь одну из нескольких кодировок, таких как Latin-1, UTF-8 и UTF-16
тип unicode - это набор байтов, который может быть преобразован в любое количество кодировок, чаще всего UTF-8 и latin-1 (iso8859-1)
команда print имеет свою собственную логику для кодирования , установленного на sys.stdout.encoding и по умолчанию UTF-8
Необходимо декодировать str в Unicode допреобразование в другую кодировку.

Конечно, все это изменяется в Python 3.x.

Надеюсь, что это светится.

Дальнейшее чтение

Символы против байтов , Тимом Бреем.

И очень показательные выступления Армина Ронахера:

Mat · Answer 2 · 30 июня 2011

Попробуйте сначала декодировать его, затем кодировать:

apple.decode('iso-8859-1').encode('utf8')

Michal Skop · Answer 3 · 24 февраля 2015

Для Python 3:

bytes(apple,'iso-8859-1').decode('utf-8')

Я использовал это для текста, неправильно закодированного как iso-8859-1 (показывающего слова типа VeÅ \ x99ejnÃ * ) вместо utf-8,Этот код выдает правильную версию Veřejné .

jd. · Answer 4 · 30 июня 2011

Декодировать в Unicode, кодировать результаты в UTF8.

apple.decode('latin1').encode('utf8')

Shashank Agarwal · Answer 5 · 24 ноября 2014

concept = concept.encode('ascii', 'ignore') 
concept = MySQLdb.escape_string(concept.decode('latin1').encode('utf8').rstrip())

Я делаю это, я не уверен, что это хороший подход, но он работает каждый раз !!

Python: преобразование из ISO-8859-1 / latin1 в UTF-8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Простая строка

Декодирование строки iso8859-1 - преобразование простой строки в Unicode

Еще немного иллюстрации - с «Ä»

Кодировка в UTF

Отношения между юникодом и UTF и латиницей1

Исключения Unicode

Дальнейшее чтение

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python: преобразование из ISO-8859-1 / latin1 в UTF-8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Простая строка

Декодирование строки iso8859-1 - преобразование простой строки в Unicode

Еще немного иллюстрации - с «Ä»

Кодировка в UTF

Отношения между юникодом и UTF и латиницей1

Исключения Unicode

Дальнейшее чтение

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов