Данные загружены из: https://www.kaggle.com/c/titanic/data
Чтобы гарантировать воспроизводимость кода, я пытаюсь сделать следующее, но это дает мне ошибку синтаксического анализа.
train = pd.read_csv("https://www.kaggle.com/c/titanic/download/GQf0y8ebHO0C4JXscPPp%2Fversions%2FXkNkvXwqPPVG0Qt3MtQT%2Ffiles%2Ftrain.csv")
получение этой ошибки
ParserError: Error tokenizing data. C error: Expected 1 fields in line 6, saw 2
Вот первые 3 строки файла:
PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
Я думаю, это потому, что * 1017 В столбце * есть запятые, разделяющие имя и фамилию. Я устал добавлять " в качестве разделителя в pd.read_csv
, но это не сработало. Есть предложения? Спасибо