Панды: передача значения разделителя в read_csv (), так что оно игнорируется для 1 из столбцов - PullRequest
0 голосов
/ 20 мая 2018

Я получил набор данных поезда Titanic от Kaggle и пытаюсь импортировать его во фрейм данных панд.Ниже приведены некоторые записи из набора данных:

PassengerId, Survived, Pclass, Имя, Пол, Возраст, SibSp, Parch, Ticket, Fare, Cabin, Embarked

  • 2,1,1, "Камингс, миссис Джон Брэдли (Флоренс Бриггс Тейер)", женщина, 38,1,0, ПК 17599,71.2833, C85, C

  • 3,1,3, «Хейккинен, мисс. Лайна», женщина, 26,0,0, STON / O2.3101282,7.925,, S

Я хочу импортировать его в кадр данных pandas таким образом, чтобы запятые в значениях полей имени (которые включены в двойные кавычки) не рассматривались как разделитель истолбец не разделен запятой.Например, для второй записи в приведенном выше примере поле «Имя», имеющее значение «Heikkinen, Miss. Laina», принимается за одно значение и не разделяется через запятую между Heikkinen и Miss.Laina

1 Ответ

0 голосов
/ 20 мая 2018

Из https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html документации для панд:

quotechar: str (длина 1), необязательно

Символ, используемый для обозначения начала и конца цитируемого элемента,Элементы в кавычках могут включать в себя разделитель, и он будет игнорироваться.

цитирование: экземпляр типа int или csv.QUOTE_ *, значение по умолчанию 0

Режим цитирования поля управления для констант csv.QUOTE_ *.Используйте один из QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) или QUOTE_NONE (3).

doublequote: логическое значение, по умолчанию True

Когда указан кавычка и цитирование не является QUOTE_NONE, укажите, следует ли интерпретировать два последовательных элемента кавычки ВНУТРИ поля как один элемент кавычки.

Поэтому я предлагаю указать кавычку в вашем вызове read_csv.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...