У меня есть набор данных с 17000 наблюдений, и я пытаюсь предсказать двоичную переменную (0,1), используя 37 объясняющих переменных и алгоритм суммирования.
Я использую функцию суммирования из adabagПакет, но примерка модели занимает очень много времени.Я использовал эту функцию ранее, и я знаю, что она обычно занимает много времени, но это занимает более двух с половиной часов, а R все еще работает. Мои данные включают целевую переменную типа class, некоторые непрерывные переменные типа numeric икатегориальные переменные типа символов.Буду признателен за любую помощь.
Принимая во внимание размер набора данных, кажется ли это разумным периодом времени или есть другая проблема?
Я попытался уменьшить количество деревьев и изменить параметры, чтобы каждое дерево было «меньше», все в надежде сократить время работы, но это не помогло.
Этомой код:
bagging1_all1<-bagging(Deafault_year~., data=training_bag1, mfinal=10,control =
rpart.control
(minsplit = 100, minbucket = 50,cp = 0.01))
Любые предложения о том, что можно сделать и где я ошибаюсь.