Заголовок объясняет главную проблему, но позвольте мне остановиться подробнее. Допустим, у меня есть два CSV-файла - csv1
и csv2
. Каждый из них выглядит так:
csv1
:
и csv2
:
Проблема в том, что когда я запускаю pd.read_csv('./csv1.csv')
, он работает нормально, но когда я запускаю pd.read_csv('./csv2.csv')
, я получаю
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 73: invalid start byte
Разница между двумя CSV-файлами заключается в том, что csv2
в основном csv1
, но даты отсортированы в порядке возрастания. Для этого я выполнил следующие операции:
csv2 = csv1.sort_values(by=['date'])
csv2.to_csv('./Data/csv_final.csv', index=False)
Кто-нибудь знает, в чем проблема? Я пытался найти другие решения, и многие люди предлагают попробовать указать другую схему кодирования при запуске pd.read_csv()
, но мне просто любопытно, с чем может быть связана проблема.
Спасибо.