У меня есть текстовый файл, который содержит строки Unicode "aBiyukÙwa", "varcasÙva" и т. Д. Когда я пытаюсь декодировать их в интерпретаторе python, используя следующий код, он работает нормально и декодирует в u'aBiyuk\xd9wa'
:
"aBiyukÙwa".decode("utf-8")
Но когда я читаю его из файла в программе на Python, используя модуль codecs
в следующем коде, он выдает UnicodeDecodeError
.
file = codecs.open('/home/abehl/TokenOutput.wx', 'r', 'utf-8')
for row in file:
Ниже приводится сообщение об ошибке:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd9 in position 8: invalid continuation byte
Есть идеи, что вызывает это странное поведение?