UnicodeDecodeError в Python с модулем кодеков - PullRequest
0 голосов
/ 05 июля 2011

У меня есть текстовый файл, который содержит строки Unicode "aBiyukÙwa", "varcasÙva" и т. Д. Когда я пытаюсь декодировать их в интерпретаторе python, используя следующий код, он работает нормально и декодирует в u'aBiyuk\xd9wa':

"aBiyukÙwa".decode("utf-8")

Но когда я читаю его из файла в программе на Python, используя модуль codecs в следующем коде, он выдает UnicodeDecodeError.

file = codecs.open('/home/abehl/TokenOutput.wx', 'r', 'utf-8')
for row in file:

Ниже приводится сообщение об ошибке:

UnicodeDecodeError: 'utf8' codec can't decode byte 0xd9 in position 8: invalid continuation byte

Есть идеи, что вызывает это странное поведение?

1 Ответ

5 голосов
/ 05 июля 2011

Ваш файл не закодирован в UTF-8. Узнайте, что это кодируется , а затем используйте это.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...