Как решить UnicodeDecodeError, когда я читаю в файле .csv? - PullRequest
0 голосов
/ 02 мая 2020

Я пытаюсь прочитать в файле .csv, и возникает следующая ошибка:

UnicodeDecodeError: код 'utf-8' c не может декодировать байты в позиции 80-81 : недопустимый байт продолжения

Кстати, я открываю файл .csv с помощью Notepad ++, и он говорит UTF-8 в раскрывающемся списке Кодировка . Возможно, потому что несколько записей не закодированы должным образом. Набор данных довольно большой. Трудно go изменить это руками. Что я могу сделать, чтобы решить эту проблему?


with open('myfile.csv') as f:
    print(f)

Я просматриваю какую-то тему в сети и обнаруживаю, что файл .csv был закодирован как cp936 . Но, опять же, возникает одна и та же ошибка.

DATA = pd.read_csv("myfile.csv", encoding="cp936")

UnicodeDecodeError: код "gbk" c не может декодировать байт 0xbd в позиции 55: недопустимая многобайтовая последовательность

...