Question

Я читаю и анализирую файл Amazon XML, и, хотя в файле XML отображается ', при попытке его распечатать я получаю следующую ошибку:

'ascii' codec can't encode character u'\u2019' in position 16: ordinal not in range(128)

Из того, что я до сих пор читал онлайн, ошибка связана с тем, что файл XML находится в UTF-8, но Python хочет обрабатывать его как кодированный ASCII-символ. Есть ли простой способ устранить ошибку и заставить мою программу напечатать XML, как он читает?

Scott Stafford · Answer 1 · 11 июля 2010

Вероятно, ваша проблема в том, что вы все правильно проанализировали, и теперь вы пытаетесь напечатать содержимое XML, а вы не можете, потому что есть некоторые иностранные символы Unicode.Попробуйте сначала закодировать вашу строку юникода как ascii:

unicodeData.encode('ascii', 'ignore')

часть 'ignore' скажет ему просто пропустить эти символы.Из документации по питону:

>>> u = unichr(40960) + u'abcd' + unichr(1972)
>>> u.encode('utf-8')
'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in ?
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
'abcd'
>>> u.encode('ascii', 'replace')
'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
'&#40960;abcd&#1972;'

Возможно, вы захотите прочитать эту статью: http://www.joelonsoftware.com/articles/Unicode.html,, которую я нашел очень полезным в качестве основного учебного пособия о том, что происходит.После прочтения вы перестанете чувствовать, что просто угадываете, какие команды использовать (или, по крайней мере, это случилось со мной).

Paxwell · Answer 2 · 10 января 2014

Лучшее решение:

if type(value) == str:
    # Ignore errors even if the string is not proper UTF-8 or has
    # broken marker bytes.
    # Python built-in function unicode() can do this.
    value = unicode(value, "utf-8", errors="ignore")
else:
    # Assume the value object has proper __unicode__() method
    value = unicode(value)

Если вы хотите узнать больше о причинах этого:

jfs · Answer 3 · 29 июня 2015

Не кодируйте кодировку символов вашей среды внутри скрипта;вместо этого печатайте текст Unicode напрямую:

assert isinstance(text, unicode) # or str on Python 3
print(text)

Если ваш вывод перенаправлен в файл (или канал);вы можете использовать PYTHONIOENCODING envvar, чтобы указать кодировку:

$ PYTHONIOENCODING=utf-8 python your_script.py >output.utf8

В противном случае python your_script.py должен работать как есть - ваши настройки локали используются для кодирования текста (при проверке POSIX: LC_ALL, LC_CTYPE, LANG envvars - установите LANG в локаль utf-8, если необходимо).

Чтобы напечатать Unicode в Windows, см. Этот ответ, который показывает, как печатать Unicodeв консоль Windows, в файл или с помощью IDLE .

Ranvijay Sachan · Answer 4 · 13 сентября 2016

Отличный пост: http://www.carlosble.com/2010/12/understanding-python-and-unicode/

# -*- coding: utf-8 -*-

def __if_number_get_string(number):
    converted_str = number
    if isinstance(number, int) or \
            isinstance(number, float):
        converted_str = str(number)
    return converted_str


def get_unicode(strOrUnicode, encoding='utf-8'):
    strOrUnicode = __if_number_get_string(strOrUnicode)
    if isinstance(strOrUnicode, unicode):
        return strOrUnicode
    return unicode(strOrUnicode, encoding, errors='ignore')


def get_string(strOrUnicode, encoding='utf-8'):
    strOrUnicode = __if_number_get_string(strOrUnicode)
    if isinstance(strOrUnicode, unicode):
        return strOrUnicode.encode(encoding)
    return strOrUnicode

Atomar94 · Answer 5 · 10 октября 2018

Python 3.5, 2018

Если вы не знаете, что такое кодировка, но у парсера Unicode возникают проблемы, вы можете открыть файл в Notepad++ и в верхней строке выбрать Encoding->Convert to ANSI. Тогда вы можете написать свой питон, как это

with open('filepath', 'r', encoding='ANSI') as file:
    for word in file.read().split():
        print(word)

Wirawan Purwanto · Answer 6 · 23 ноября 2016

Если вам нужно распечатать приблизительное представление строки на экране, а не игнорировать эти непечатаемые символы, попробуйте unidecode пакет здесь:

https://pypi.python.org/pypi/Unidecode

Объяснениенаходится здесь:

https://www.tablix.org/~avian/blog/archives/2009/01/unicode_transliteration_in_python/

Это лучше, чем использование u.encode('ascii', 'ignore') для данной строки u, и может спасти вас от ненужной головной боли, если точность символов не соответствует вашейпосле, но все еще хотят иметь удобочитаемость.

Wirawan

abnvanand · Answer 7 · 20 января 2016

Попробуйте добавить следующую строку вверху скрипта Python.

# _*_ coding:utf-8 _*_

user5910 · Answer 8 · 10 сентября 2015

Я написал следующее, чтобы исправить неприятные кавычки, не связанные с ascii, и принудительно преобразовать их в нечто полезное.

unicodeToAsciiMap = {u'\u2019':"'", u'\u2018':"`", }

def unicodeToAscii(inStr):
    try:
        return str(inStr)
    except:
        pass
    outStr = ""
    for i in inStr:
        try:
            outStr = outStr + str(i)
        except:
            if unicodeToAsciiMap.has_key(i):
                outStr = outStr + unicodeToAsciiMap[i]
            else:
                try:
                    print "unicodeToAscii: add to map:", i, repr(i), "(encoded as _)"
                except:
                    print "unicodeToAscii: unknown code (encoded as _)", repr(i)
                outStr = outStr + "_"
    return outStr

David Z · Answer 9 · 11 июля 2010

Вы можете использовать что-то вида

s.decode('utf-8')

, который преобразует кодированную строку UTF-8 в строку Python Unicode. Но точная процедура зависит от того, как именно вы загружаете и анализируете файл XML, например, если вы никогда не обращаетесь к строке XML напрямую, вам, возможно, придется использовать объект декодера из codecs модуля .

Python Unicode Encode Error

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python Unicode Encode Error

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы