Question

У меня есть текстовый файл, который содержит строки Unicode "aBiyukÙwa", "varcasÙva" и т. Д. Когда я пытаюсь декодировать их в интерпретаторе python, используя следующий код, он работает нормально и декодирует в u'aBiyuk\xd9wa':

"aBiyukÙwa".decode("utf-8")

Но когда я читаю его из файла в программе на Python, используя модуль codecs в следующем коде, он выдает UnicodeDecodeError.

file = codecs.open('/home/abehl/TokenOutput.wx', 'r', 'utf-8')
for row in file:

Ниже приводится сообщение об ошибке:

UnicodeDecodeError: 'utf8' codec can't decode byte 0xd9 in position 8: invalid continuation byte

Есть идеи, что вызывает это странное поведение?

Ignacio Vazquez-Abrams · Answer 1 · 05 июля 2011

Ваш файл не закодирован в UTF-8. Узнайте, что это кодируется , а затем используйте это.

UnicodeDecodeError в Python с модулем кодеков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

UnicodeDecodeError в Python с модулем кодеков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов