Как интерпретировать значение переменной Random Forest относительно распределения графиков минимальной глубины? - PullRequest
0 голосов
/ 26 мая 2019

Я использую Случайный Лес (регрессия) для анализа данных о гражданских конфликтах. Я нарисовал две разные вещи: важность переменной и распределение минимальной глубины (используя пакет randomForest randomForestExplainer в R).

Мой вопрос: почему переменная с наибольшей важностью не является переменной с самой низкой средней минимальной глубиной? И что это значит? Я включил два изображения.

Зависимой переменной является интенсивность конфликта. Данные структурированы в формате страны-года, поэтому для каждой страны у меня есть точка данных за каждый год. Независимые переменные включают население, регион, ВВП и т. Д.

require(randomForest)

require(randomForestExplainer)

randomF <- randomForest(max_intensity ~ nrgroups + GDPlog_lag + logPopulation + Polity_lag + Asia + Africa + MiddleEast + Europe + Americas, data=MAR_regressions, na.action=na.exclude)

plot(randomF, type="l", main= "Random Forest Protest and Rebellion")

varImpPlot(randomF, main="Variable Importance Random Forest Prot & Reb", col="blue")

plot_min_depth_distribution(randomF)

Переменная Значение Мин. Глубина

(я не могу включить фотографии, потому что у меня нет 10 репутаций)

...