Я пытаюсь понять важность функции взаимодействия из древовидных моделей, использующих пакеты iml
и rpart
, но борюсь с вычислительной мощностью.
Вот пример набора данных:
Gender Age Income Education Minutes of Exercise
Male 25 1000 Professional 120
Male 75 201000 Professional 200
Female 20 9000 Student 20
Набор данных содержит 20 000 строк, а "Минуты упражнений" являются зависимой переменной.Я использовал rpart
, чтобы понять важность функции:
library(iml)
library(rpart)
rf = rpart('Minutes of Exercise' ~ ., data = data)
rf$variable.importance #Overall variable importance
#Understanding the interactions feature importance through H-statistic
mod = Predictor$new(rf, data = data[-which(names(data) == 'Minutes of Exercise')])
Int = Interaction$new(mod, feature = "Age", grid.size = 100)
pot(Int)
Формирование Int
- это проблема, с которой я сталкиваюсь, потому что попытка построить важность функции взаимодействия чрезвычайно трудоемка.Я пробовал parallel = TRUE
через AWS без удачи.Я также пробовал другие регрессионные модели, такие как лассо и ридж, сравнивать с похожими проблемами.
Спасибо за вашу помощь!