Python: UnicodeEncodeError: кодек «latin-1» не может кодировать символ - PullRequest
11 голосов
/ 28 ноября 2011

Я нахожусь в сценарии, где я вызываю api, и на основе результатов из api я вызываю базу данных для каждой записи, которую я в api. Мои строки возврата вызова API и, когда я выполняю вызов базы данных для элементов, возвращаемых через API, для некоторых элементов я получаю следующую ошибку.

Traceback (most recent call last):
  File "TopLevelCategories.py", line 267, in <module>
    cursor.execute(categoryQuery, {'title': startCategory});
  File "/opt/ts/python/2.7/lib/python2.7/site-packages/MySQLdb/cursors.py", line 158, in execute
    query = query % db.literal(args)
  File "/opt/ts/python/2.7/lib/python2.7/site-packages/MySQLdb/connections.py", line 265, in literal
    return self.escape(o, self.encoders)
  File "/opt/ts/python/2.7/lib/python2.7/site-packages/MySQLdb/connections.py", line 203, in unicode_literal
    return db.literal(u.encode(unicode_literal.charset))
UnicodeEncodeError: 'latin-1' codec can't encode character u'\u2013' in position 3: ordinal not in range(256)

Сегмент моего кода, на который ссылается вышеуказанная ошибка:

         ...    
         for startCategory in value[0]:
            categoryResults = []
            try:
                categoryRow = ""
                baseCategoryTree[startCategory] = []
                #print categoryQuery % {'title': startCategory}; 
                cursor.execute(categoryQuery, {'title': startCategory}) #unicode issue
                done = False
                cont...

Пройдя поиск в Google, я попытался выполнить следующую команду в командной строке, чтобы понять, что происходит ...

>>> import sys
>>> u'\u2013'.encode('iso-8859-1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'latin-1' codec can't encode character u'\u2013' in position 0: ordinal not in range(256)
>>> u'\u2013'.encode('cp1252')
'\x96'
>>> '\u2013'.encode('cp1252')
'\\u2013'
>>> u'\u2013'.encode('cp1252')
'\x96'

Но я не уверен, что бы решить эту проблему. Также я не знаю, что за теория стоит за encode('cp1252'), было бы здорово, если бы я мог получить какое-то объяснение тому, что я попробовал выше.

Ответы [ 3 ]

15 голосов
/ 28 ноября 2011

Если вам нужна кодировка Latin-1, у вас есть несколько вариантов, чтобы избавиться от тире или других кодовых точек выше 255 (символы, не включенные в Latin-1):

>>> u = u'hello\u2013world'
>>> u.encode('latin-1', 'replace')    # replace it with a question mark
'hello?world'
>>> u.encode('latin-1', 'ignore')     # ignore it
'helloworld'

Или сделайте ваши собственные замены:

>>> u.replace(u'\u2013', '-').encode('latin-1')
'hello-world'

Если вам не нужно выводить Latin-1, тогда UTF-8 является распространенным и предпочтительным выбором. Рекомендуется W3C и хорошо кодирует все кодовые точки Unicode:

>>> u.encode('utf-8')
'hello\xe2\x80\x93world'
3 голосов
/ 28 ноября 2011

Unicode-символ u '\ 02013' является "черточкой". Он содержится в наборе символов Windows-1252 (cp1252) (с кодировкой x96), но не в наборе символов Latin-1 (iso-8859-1). Набор символов Windows-1252 имеет еще несколько символов, определенных в области x80 - x9f, среди которых - тире.

Решение состоит в том, чтобы вы выбрали другой целевой набор символов, нежели Latin-1, например Windows-1252 или UTF-8, или заменили дефис на простой "-".

1 голос
/ 21 сентября 2017

u.encode('utf-8') преобразует его в байты, которые затем можно распечатать на стандартный вывод с помощью sys.stdout.buffer.write(bytes) оформить заказ https://docs.python.org/3/library/sys.html

...