pandas read_csv завершается ошибкой в ​​конкретной строке, возвращая UnicodeDecodeError: кодек utf-8 - PullRequest
0 голосов
/ 20 октября 2019

Pandas read_csv () возвращает UnicodeDecodeError в некоторых определенных строках. Если я использую nrows=n1, он работает без ошибок. Но когда я использую nrows=n2 (>n1), каким-то образом он возвращает UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 12: invalid start byte

Раньше он работал нормально, но в какой-то момент он заставляет меня возвращать ошибку. Иногда это работает снова, когда я перезагружаю компьютер, но только в первый раз я пытаюсь вызвать его.

Пробовал read_csv с опцией кодирования и без нее. Также пробовал error_bad_lines = False.

Это сводит меня с ума. Есть идеи? Если это связано с системной проблемой, по крайней мере, я хочу знать, как получить номер строки проблемной строки.

(Я экспортировал таблицу из MATLAB с кодировкой, указанной как etf-8 (также пробовал CP949,которая является кодировкой моей системы по умолчанию.) Импорт из SAS был успешным.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...