Я пытаюсь прочитать csv в Pandas (через функцию read_csv
), где второй атрибут text
содержит строку, заключенную в двойные кавычки. Некоторые примеры содержат больше кавычек внутри строки, которые экранируются, например, "He said \"Okay, I will\" but I doubt it"
.
e.g.
id, text
0, "random text"
1, "He said \"Okay, I will\" but I doubt it"
Всякий раз, когда я запускаю функцию read_csv
, я получаю ошибку CParserError: Error tokenizing data. C error: Expected 2 fields in line 1, saw 3
. Это связано с тем, что запятая внутри подстроки \"Okay, I will\"
распознается как разделитель, а если нет -
Как я могу это исправить?
Редактировать
Я нашел решение в другой записи . Все, что мне нужно сделать, это добавить 2 атрибута к read_csv
: pd.read_csv('dataset.csv', escapechar='\\', encoding='utf-8')
. Теперь работает нормально.