Question

Я работаю с набором данных в R с размерами около 7000 x 5000. Размер файла составляет около 100 000 КБ. Загрузка его в R. занимает около получаса. Когда я пытаюсь создать таблицу корреляции для запуска PCA, R. зависает. Затем я должен снова открыть его и снова импортировать данные.

Я удивлен, что это так медленно с набором данных такого размера. Я думал, что наборы данных должны быть намного больше, чтобы повлиять на скорость до такой степени. Я использую Microsoft Surface Pro 3.

У кого-нибудь есть идеи, почему это может происходить и что я могу с этим сделать? Это мой ноутбук? Или такая вещь характерна для наборов данных такого размера?

Редактировать в ответ на комментарии: Мой компьютер имеет 8 ГБ оперативной памяти. Это код, который я использую:

nlsy_training_set <- read_excel("nlsy training set.xlsx")
df <- nlsy_training_set
full <- df[,2:4886]
corf <- cor(full)
corf <- fill.NAs(full, data = NULL, all.covs = FALSE, contrasts.arg = NULL)
corf <- as.data.frame(corf)
pcaf <- principal(corf, nfactors = 100, rotate = "varimax")$loadings
dfpcaf <- as.data.frame(pcaf)

melbez · Answer 1 · 04 февраля 2020

Это было очень медленно, потому что я использовал read_excel и преобразовал исходный файл данных в формат книги Excel. Как только я использовал read.csv и использовал оригинальный формат csv, я смог относительно быстро импортировать данные в R.

Использование read.csv работает лучше, чем read_excel для больших наборов данных.

R работает очень медленно при импорте и обработке набора данных размером 100 000 КБ

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

R работает очень медленно при импорте и обработке набора данных размером 100 000 КБ

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы