Как сравнить значения важности между случайными переменными леса с различными переменными ответа? - PullRequest
0 голосов
/ 08 февраля 2019

Я пытаюсь взглянуть на сравнение важности предикторов в прогнозировании различных переменных ответа.Однако я не уверен, возможно ли это сделать из-за различий в переменных ответа.Будет ли уместным сравнивать значения напрямую?

Если нет, существует ли методология для этого?Мне кажется, что сравнение важности ранга было бы жизнеспособным, но в то же время я чувствую, что оно уменьшает изменчивость относительных значений для каждой модели, изменяя интерпретацию.

Мои данные очень большие, но для этих целей я могу просто использовать набор данных радужной оболочки для представления того, что я говорю.(Это похоже на то, как выглядят мои данные, за исключением того, что они значительно уменьшены).

library(randomForest); library(ggplot2)  

test = data.frame(iris, 'Site' = rep(c('A', 'B', 'C', 'D', 'E'), times = 30))  

# make models
m1 = randomForest(y = test[, 5], x = test[,1:4], importance = TRUE, proximity = TRUE, ntree = 500, norm.votes = FALSE)  
m2 = randomForest(y = test[, 6], x = test[,1:4], importance = TRUE, proximity = TRUE, ntree = 500, norm.votes = FALSE)  

# look at importances 
m1Imp = importance(m1, type = 1, scale = F)   
m2Imp = importance(m2, type = 1, scale = F)  

# plot comparison
plotDF = data.frame('averageMeasure' = sample(1:100, 4)/100, m1Imp, m2Imp)  

plotDF %>%   
gather(key = "forest", value = "imp", -averageMeasure) %>%   
ggplot(aes(x = averageMeasure, y = imp, color = forest)) + geom_point() +  
scale_y_continuous("Predictor Importance") 
...