Понимание важности функции взаимодействия для больших выборок - PullRequest
0 голосов
/ 26 февраля 2019

Я пытаюсь понять важность функции взаимодействия из древовидных моделей, использующих пакеты iml и rpart, но борюсь с вычислительной мощностью.

Вот пример набора данных:

Gender  Age  Income  Education      Minutes of Exercise
Male    25   1000    Professional   120
Male    75   201000  Professional   200
Female  20   9000    Student        20

Набор данных содержит 20 000 строк, а "Минуты упражнений" являются зависимой переменной.Я использовал rpart, чтобы понять важность функции:

library(iml) 
library(rpart)
rf = rpart('Minutes of Exercise' ~ ., data = data)
rf$variable.importance #Overall variable importance

#Understanding the interactions feature importance through H-statistic
mod = Predictor$new(rf, data = data[-which(names(data) == 'Minutes of Exercise')]) 
Int = Interaction$new(mod, feature = "Age", grid.size = 100)
pot(Int)

Формирование Int - это проблема, с которой я сталкиваюсь, потому что попытка построить важность функции взаимодействия чрезвычайно трудоемка.Я пробовал parallel = TRUE через AWS без удачи.Я также пробовал другие регрессионные модели, такие как лассо и ридж, сравнивать с похожими проблемами.

Спасибо за вашу помощь!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...