Как манипулировать огромным набором данных в R? - PullRequest
0 голосов
/ 10 марта 2019

Прежде всего, я извиняюсь за то, что возможно дублирую этот вопрос. Но я рассмотрел много других подобных вопросов и не смог решить свою проблему.

Ну, я работаю с огромным набором данных, который содержит 184 903 890 строк. Объект с объемом более 6,5 ГБ. Этот CSV-файл доступен по этой ссылке: Задача обнаружения мошенничества с отслеживанием объявлений

Я запускаю его на ПК со следующими характеристиками:

  • i7 - 7700K - 4,2 ГГц
  • 16 ГБ RAM
  • GeForce GTX 1080 Ti с 11,2 ГБ памяти DDR 5

Но даже когда я пытаюсь установить столбец в качестве даты, система перестает работать. Можно ли иметь дело с таким размером набора данных, используя только R?

Детали кода:

training <- fread('train.csv')

Некоторые попытки, которые останавливают R или возвращают, которые не могут выделить вектор размера ...:

training$click_time <- as.Date(training$click_time)
training$click_time <- as.POSIXct(training$click_time, 'GMT')
training <- training %>% mutate(d_month = sapply(click_time, mday)

Дополнительные обновления:

  • Я уже использовал gc () для очистки памяти;
  • Я уже выбрал только 2 столбца для нового набора данных;

1 Ответ

0 голосов
/ 11 марта 2019

Возможно, вы исчерпали память, выделенную для R. Попробуйте memory_limit(), и при необходимости вы можете увеличить значение по умолчанию с memory.limit(size = xxxx)

...