Почему количество наблюдений в кадре данных R больше, чем в файле CSV? - PullRequest
0 голосов
/ 14 июля 2020

У меня есть файл образцов данных, экспортированный из таблицы MySQL, содержащей 99 977 строк. Когда я импортирую в R, он сообщает мне, что у меня есть 101 942 наблюдения 49 переменных. Видя, что это больше, я также импортировал в фрейм данных Pandas с Python и получил те же 99 977 строк и сказал, что у меня 48 столбцов, которые есть в таблице MySQL.

Я считаю, что дополнительный столбец в R - это «row.names», который я вижу, когда набираю colnames(ds), но не уверен. Я не понимаю, почему я вижу еще 1965 наблюдений в R. Если только запись и наблюдение не совпадают?

Код, который я использую для R:

ds <- read.csv("/project/data/scenario_data.csv", quote = "", 
               row.names = NULL, stringsAsFactors = FALSE, header = TRUE)

> nrow(ds)
[1] 101942
> ncol(ds)
[1] 49

Код Python Pandas, который я использую:

scenario_df = pd.read_csv('/project/data/scenario_data.csv')

index = scenario_df.index
len(index)
--> 99977

len(scenario_df.columns)
--> 48

Я был бы признателен за любую информацию о том, почему я вижу этот. Большое спасибо за вашу помощь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...