Question

Почему нижеуказанный пункт не работает? и почему это удается с кодеком "latin-1"?

o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving
v = o.decode("utf-8")

Результат:

 Traceback (most recent call last):  
 File "<stdin>", line 1, in <module>  
 File "C:\Python27\lib\encodings\utf_8.py",
 line 16, in decode
     return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError:
 'utf8' codec can't decode byte 0xe9 in position 10: invalid continuation byte

Josh Lee · Answer 1 · 05 апреля 2011

В двоичном формате 0xE9 выглядит как 1110 1001. Если вы прочитаете о UTF-8 в Википедии , вы увидите, что за таким байтом должны следовать два вида 10xx xxxx. Так, например:

>>> b'\xe9\x80\x80'.decode('utf-8')
u'\u9000'

Но это всего лишь механическая причина исключения. В этом случае у вас есть строка, которая почти наверняка закодирована в латинском 1. Вы можете увидеть, как UTF-8 и латинский 1 выглядят по-разному:

>>> u'\xe9'.encode('utf-8')
b'\xc3\xa9'
>>> u'\xe9'.encode('latin-1')
b'\xe9'

(Обратите внимание, что я использую смесь представлений Python 2 и 3. Здесь ввод действителен в любой версии Python, но ваш интерпретатор Python вряд ли на самом деле будет отображать строки как в Юникоде, так и в байтах.)

Mazen Aly · Answer 2 · 18 июля 2015

У меня была такая же ошибка, когда я пытался открыть CSV-файл методом pandas read_csv.

Решением было изменить кодировку на 'latin-1':

pd.read_csv('ml-100k/u.item', sep='|', names=m_cols , encoding='latin-1')

Sami J. Lehtinen · Answer 3 · 05 апреля 2011

Недействительно UTF-8. Этот символ является острым символом в ISO-Latin1, поэтому он успешно работает с этим набором кодов.

Если вы не знаете кодовый набор, в который вы получаете строки, у вас возникли проблемы. Было бы лучше, если бы для вашего протокола / приложения был выбран один кодовый набор (надеюсь, UTF-8), а затем вы просто отклонили бы те, которые не были декодированы.

Если вы не можете этого сделать, вам понадобится эвристика.

neurino · Answer 4 · 05 апреля 2011

Поскольку UTF-8 является многобайтовым и нет символа, соответствующего вашей комбинации \xe9 плюс следующий пробел.

Почему он должен преуспеть в и utf-8 и в латинице1?

Вот как должно быть то же самое предложение в utf-8:

>>> o.decode('latin-1').encode("utf-8")
'a test of \xc3\xa9 char'

Patrick Mutuku · Answer 5 · 05 июля 2018

Если эта ошибка возникает при манипулировании с файлом, который был только что открыт, проверьте, открыли ли вы его в режиме 'rb'

Martin Taco · Answer 6 · 20 июня 2019

В этом случае я попытался выполнить .py, который активирует путь / file.sql.

Мое решение состояло в том, чтобы изменить кодификацию файла.sql на «UTF-8 без BOM» иэто работает!

Вы можете сделать это с помощью Блокнота ++.

Я оставлю часть моего кода.

/ Код /

con = psycopg2.connect (host = sys.argv [1], port = sys.argv [2], dbname = sys.argv[3], user = sys.argv [4], пароль = sys.argv [5])

cursor = con.cursor () sqlfile = open (путь, 'r')

Alon Gouldman · Answer 7 · 21 февраля 2019

Это также случилось со мной, когда я читал текст, содержащий иврит, из файла .txt.

Я нажал: file -> save as и сохранил этот файл как UTF-8 кодировка

UnicodeDecodeError, недопустимый байт продолжения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

UnicodeDecodeError, недопустимый байт продолжения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы