Я делаю некоторую обработку текста в Python 2.7 с кодировкой ASCII по умолчанию. Я получаю UnicodeDecodeError
при попытке закодировать некоторые из моих строк в utf-8
. В частности, для каждого слова в моем документе я делаю это:
word = word.encode('utf-8')
Это хорошо работает, когда все мои персонажи ASCII, но когда нет, я получаю:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 5: ordinal not in range(128)
Я в замешательстве, так как думал, что вызов encode
превратит все из ASCII в utf-8
. Так как utf-8
является расширенным набором ASCII, у меня не должно быть проблем ... но у меня есть.
Кроме того, я не уверен, почему говорится, что ASCII не может декодировать , когда я ожидал, что ASCII не может кодировать мое слово в utf-8
.
Любая помощь будет потрясающей!