Я нашел здесь несколько похожих вопросов, но ни один из них не решил мою проблему. У меня есть файл csv с одним столбцом, содержащим несколько длинных строк, а в других столбцах - короткие строки. Когда я прочитал его с помощью
df = pd.read_csv(file_path, encoding = 'UTF-8')
, я получил:
text colA colB colC colD Unnamed: 5 Unnamed: 6 Unnamed: 7 Unnamed: 8 Unnamed: 9 Unnamed: 10
Но у меня есть только text colA colB colC colD
эти столбцы в файле csv.
Я подумал, что это было хорошо, я могу просто удалить эти безымянные столбцы, но я обнаружил, что df.shape
is (180106, 11)
\ Однако мой файл csv составляет около 270000 строк. Я не знаю, связаны ли эти две проблемы друг с другом.
Я попытался добавить параметр quoting=csv.QUOTE_NONE
в read_csv Это дает мне:
b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\
Это пропускает еще больше строк , что делает его даже меньше, чем 180106
Я думаю, это может быть связано с тем, как анализируется файл CSV, но я не знаю, как я могу его полностью прочитать. К сожалению, данные в CSV-файле конфиденциальны, поэтому я не могу поделиться образцом.