Прежде всего, я извиняюсь за то, что возможно дублирую этот вопрос.
Но я рассмотрел много других подобных вопросов и не смог решить свою проблему.
Ну, я работаю с огромным набором данных, который содержит 184 903 890 строк. Объект с объемом более 6,5 ГБ.
Этот CSV-файл доступен по этой ссылке: Задача обнаружения мошенничества с отслеживанием объявлений
Я запускаю его на ПК со следующими характеристиками:
- i7 - 7700K - 4,2 ГГц
- 16 ГБ RAM
- GeForce GTX 1080 Ti с 11,2 ГБ памяти DDR 5
Но даже когда я пытаюсь установить столбец в качестве даты, система перестает работать.
Можно ли иметь дело с таким размером набора данных, используя только R?
Детали кода:
training <- fread('train.csv')
Некоторые попытки, которые останавливают R или возвращают, которые не могут выделить вектор размера ...:
training$click_time <- as.Date(training$click_time)
training$click_time <- as.POSIXct(training$click_time, 'GMT')
training <- training %>% mutate(d_month = sapply(click_time, mday)
Дополнительные обновления:
- Я уже использовал gc () для очистки памяти;
- Я уже выбрал только 2 столбца для нового набора данных;