использование glm с большим набором данных в R - память исчерпана - PullRequest
1 голос
/ 18 апреля 2019

У меня большой набор данных (> 6 миллионов строк и 12 столбцов), на котором я пытаюсь выполнить логистическую регрессию. Первый столбец фрейма данных называется Dep1 и имеет либо 0, либо 1 значение. Другие столбцы имеют имена Var1, Var2, ..., Var11 и представляют собой независимые переменные, которые меня интересуют. Некоторые столбцы во фрейме данных имеют тип-фактор, а другие - num. Я использую GLM со следующим вызовом:

mylogit <- glm(Dep1 ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6  + Var7 + Var8 + Var9 + Var10 + Var11,data=dataset,family=binomial())

Когда я вызываю glm со всеми переменными, я получаю сообщение:

Error: vector memory exhausted (limit reached?)

Я могу запустить glm с меньшим набором переменных, например, только с Var1 по Var4, но я хотел бы изучить его со всеми переменными. Любые предложения по устранению этой ошибки?

1 Ответ

0 голосов
/ 19 апреля 2019

В итоге я выполнил шаги здесь , и это, похоже, решило мою проблему после перезапуска R.

...