Разное количество образцов в .csv при исследовании в Excel и Pandas - PullRequest
0 голосов
/ 09 апреля 2020

Я новичок в pandas и науке о данных в целом. В настоящее время я изучаю набор данных, используя pandas.

. Я заметил, что, открыв его в Excel, он показывает, что имеется 130.808 строк, вычитая заголовок, получается 130.807, но если я открою тот же файл используя pandas df = pd.read_csv("data.csv", sep='|', header=0) и вызывая свойство .shape, он показывает, что он имеет только 130.802 выборки.

Куда пропали остальные 5, если я не вносил никаких изменений в набор данных?

Не уверен, что это что-то меняет, но я использую дистрибутив Anaconda.

Заранее спасибо!

1 Ответ

0 голосов
/ 11 апреля 2020

Вам необходимо проверить, есть ли значения в кавычках, а если нет, содержит ли значения в наборе данных определитель строки.

Если в набор данных не добавлено / не заключено в кавычки, символ завершения строки в значениях может заставить программу думать, что это новая строка вместо новой строки в блоке

Надеюсь, это поможет

...