Есть ли способ решить проблему «невозможно выделить вектор размера» без сброса данных? - PullRequest
0 голосов
/ 15 октября 2019

В отличие от предыдущего вопроса по этому поводу, этот случай отличается от этого, и именно поэтому я спрашиваю. У меня уже есть очищенный набор данных, содержащий 120 000 наблюдений 25 переменных, и я должен проанализировать его с помощью логистической регрессии и случайного леса. Тем не менее, я получаю сообщение об ошибке "не могу выделить вектор размером 98 ГБ, а мой друг - нет.

Резюме говорит, что большинство из них. Я даже пытался сократить количество наблюдений до 50 000 и количество переменных в наборе данныхдо 15 (использовала 5 из них в регрессии), и это не удалось. Однако я попытался отправить сценарий, где я сократил набор данных, другу, и она могла запустить его. Это странно, потому что у меня 64-битная система и 8 ГБ ОЗУ, у нее всего 4 ГБ. Так что, похоже, проблема со мной.

pd_data <- read.csv2("pd_data_v2.csv")
split <- rsample::initial_split(pd_data, prop = 0.7)
train <- rsample::training(split)
test <- rsample::testing(split)

log_model <- glm(default ~ profit_margin + EBITDA_margin +   payment_reminders, data = pd_data, family = "binomial")
log_model

Результатом должна стать логистическая модель, в которой я могу видеть коэффициенты, измерять их точность и вносить коррективы.

...