Я пытаюсь взглянуть на сравнение важности предикторов в прогнозировании различных переменных ответа.Однако я не уверен, возможно ли это сделать из-за различий в переменных ответа.Будет ли уместным сравнивать значения напрямую?
Если нет, существует ли методология для этого?Мне кажется, что сравнение важности ранга было бы жизнеспособным, но в то же время я чувствую, что оно уменьшает изменчивость относительных значений для каждой модели, изменяя интерпретацию.
Мои данные очень большие, но для этих целей я могу просто использовать набор данных радужной оболочки для представления того, что я говорю.(Это похоже на то, как выглядят мои данные, за исключением того, что они значительно уменьшены).
library(randomForest); library(ggplot2)
test = data.frame(iris, 'Site' = rep(c('A', 'B', 'C', 'D', 'E'), times = 30))
# make models
m1 = randomForest(y = test[, 5], x = test[,1:4], importance = TRUE, proximity = TRUE, ntree = 500, norm.votes = FALSE)
m2 = randomForest(y = test[, 6], x = test[,1:4], importance = TRUE, proximity = TRUE, ntree = 500, norm.votes = FALSE)
# look at importances
m1Imp = importance(m1, type = 1, scale = F)
m2Imp = importance(m2, type = 1, scale = F)
# plot comparison
plotDF = data.frame('averageMeasure' = sample(1:100, 4)/100, m1Imp, m2Imp)
plotDF %>%
gather(key = "forest", value = "imp", -averageMeasure) %>%
ggplot(aes(x = averageMeasure, y = imp, color = forest)) + geom_point() +
scale_y_continuous("Predictor Importance")