Question

Прежде всего, я извиняюсь за то, что возможно дублирую этот вопрос. Но я рассмотрел много других подобных вопросов и не смог решить свою проблему.

Ну, я работаю с огромным набором данных, который содержит 184 903 890 строк. Объект с объемом более 6,5 ГБ. Этот CSV-файл доступен по этой ссылке: Задача обнаружения мошенничества с отслеживанием объявлений

Я запускаю его на ПК со следующими характеристиками:

i7 - 7700K - 4,2 ГГц
16 ГБ RAM
GeForce GTX 1080 Ti с 11,2 ГБ памяти DDR 5

Но даже когда я пытаюсь установить столбец в качестве даты, система перестает работать. Можно ли иметь дело с таким размером набора данных, используя только R?

Детали кода:

training <- fread('train.csv')

Некоторые попытки, которые останавливают R или возвращают, которые не могут выделить вектор размера ...:

training$click_time <- as.Date(training$click_time)
training$click_time <- as.POSIXct(training$click_time, 'GMT')
training <- training %>% mutate(d_month = sapply(click_time, mday)

Дополнительные обновления:

Я уже использовал gc () для очистки памяти;
Я уже выбрал только 2 столбца для нового набора данных;

flopeko · Answer 1 · 11 марта 2019

Возможно, вы исчерпали память, выделенную для R. Попробуйте memory_limit(), и при необходимости вы можете увеличить значение по умолчанию с memory.limit(size = xxxx)

Как манипулировать огромным набором данных в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как манипулировать огромным набором данных в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы