Так что я просто делаю небольшой парсер csv и, работая над ним, я получил сообщение об ошибке, похожее на
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0
Я использовал
with open(<file>) as f:
df = pandas.read_csv(f)
чтобы прочитать файл.
Мое решение состояло в том, чтобы использовать error='ignore'
в качестве опции внутри функции open () (что, как я знаю, не самая лучшая практика), но недавно я хотел вернуться к ней и выполнить надлежащую обработку ошибок, используя попытку / исключение блок, чтобы поймать ошибку и распечатать сообщение, а не просто игнорировать его.
Однако я не могу воссоздать ошибку. Я использую тот же CSV-файл с той же функцией и больше не получаю ошибку декодирования ... Это явно раздражает, потому что, если это произошло случайно один раз, это может произойти снова, и я хочу правильно обработать это.
Персонаж, вызвавший проблему в прошлый раз, выглядел как дефис, но больше. CSV огромен, поэтому я не могу найти его больше. Я подумал, может быть, это конец, но когда я копирую / вставляю «конец», который я нахожу в Интернете в CSV, я все равно не получаю сообщение об ошибке.
Это может быть глупый вопрос, но как мне записать символы не-utf-8 в мой csv, чтобы воссоздать эту ошибку?