У меня есть файл образцов данных, экспортированный из таблицы MySQL, содержащей 99 977 строк. Когда я импортирую в R, он сообщает мне, что у меня есть 101 942 наблюдения 49 переменных. Видя, что это больше, я также импортировал в фрейм данных Pandas с Python и получил те же 99 977 строк и сказал, что у меня 48 столбцов, которые есть в таблице MySQL.
Я считаю, что дополнительный столбец в R - это «row.names», который я вижу, когда набираю colnames(ds)
, но не уверен. Я не понимаю, почему я вижу еще 1965 наблюдений в R. Если только запись и наблюдение не совпадают?
Код, который я использую для R:
ds <- read.csv("/project/data/scenario_data.csv", quote = "",
row.names = NULL, stringsAsFactors = FALSE, header = TRUE)
> nrow(ds)
[1] 101942
> ncol(ds)
[1] 49
Код Python Pandas, который я использую:
scenario_df = pd.read_csv('/project/data/scenario_data.csv')
index = scenario_df.index
len(index)
--> 99977
len(scenario_df.columns)
--> 48
Я был бы признателен за любую информацию о том, почему я вижу этот. Большое спасибо за вашу помощь.