Я использую Случайный Лес (регрессия) для анализа данных о гражданских конфликтах. Я нарисовал две разные вещи: важность переменной и распределение минимальной глубины (используя пакет randomForest randomForestExplainer в R).
Мой вопрос: почему переменная с наибольшей важностью не является переменной с самой низкой средней минимальной глубиной? И что это значит? Я включил два изображения.
Зависимой переменной является интенсивность конфликта. Данные структурированы в формате страны-года, поэтому для каждой страны у меня есть точка данных за каждый год. Независимые переменные включают население, регион, ВВП и т. Д.
require(randomForest)
require(randomForestExplainer)
randomF <- randomForest(max_intensity ~ nrgroups + GDPlog_lag + logPopulation + Polity_lag + Asia + Africa + MiddleEast + Europe + Americas, data=MAR_regressions, na.action=na.exclude)
plot(randomF, type="l", main= "Random Forest Protest and Rebellion")
varImpPlot(randomF, main="Variable Importance Random Forest Prot & Reb", col="blue")
plot_min_depth_distribution(randomF)
Переменная Значение
Мин. Глубина
(я не могу включить фотографии, потому что у меня нет 10 репутаций)