Я работаю с набором данных в R с размерами около 7000 x 5000. Размер файла составляет около 100 000 КБ. Загрузка его в R. занимает около получаса. Когда я пытаюсь создать таблицу корреляции для запуска PCA, R. зависает. Затем я должен снова открыть его и снова импортировать данные.
Я удивлен, что это так медленно с набором данных такого размера. Я думал, что наборы данных должны быть намного больше, чтобы повлиять на скорость до такой степени. Я использую Microsoft Surface Pro 3.
У кого-нибудь есть идеи, почему это может происходить и что я могу с этим сделать? Это мой ноутбук? Или такая вещь характерна для наборов данных такого размера?
Редактировать в ответ на комментарии: Мой компьютер имеет 8 ГБ оперативной памяти. Это код, который я использую:
nlsy_training_set <- read_excel("nlsy training set.xlsx")
df <- nlsy_training_set
full <- df[,2:4886]
corf <- cor(full)
corf <- fill.NAs(full, data = NULL, all.covs = FALSE, contrasts.arg = NULL)
corf <- as.data.frame(corf)
pcaf <- principal(corf, nfactors = 100, rotate = "varimax")$loadings
dfpcaf <- as.data.frame(pcaf)