Почему случайное упорядочение предикторов имеет значение в частоте ошибок OOB? - PullRequest
0 голосов
/ 02 мая 2018

Я просто ищу общее понимание того, почему порядок предикторов в randomForest может влиять на оценку OOB. Я думаю, что могу знать ответ, но я не уверен. Я предполагаю, что это связано со способом построения деревьев (начиная с первого предиктора и разветвлением на основе второго и так далее). Например, в наборе титанических данных я создал следующие randomForests:

rf.train.9 <- titanic.full[1:891, c("Pclass", "Age", "Fare", "FamSize", "Sex")]
rf.label <- as.factor(train$Survived)

set.seed(1234)
rf.9 <- randomForest(x = rf.train.9, y = rf.label, importance = TRUE, ntree = 1000)
rf.9

и

rf.train.9 <- titanic.full[1:891, c( "Age", "Fare", "FamSize", "Sex", "Pclass")]
rf.label <- as.factor(train$Survived)

set.seed(1234)
rf.9 <- randomForest(x = rf.train.9, y = rf.label, importance = TRUE, ntree = 1000)
rf.9

Единственное изменение здесь - это перемещение Pclass от первого до последнего предиктора в модели. Первый прогон вычислил лучший OOB (15,6% против 15,82)

Если мое понимание процесса, используемого РЧ, является правильным, то возникает более важный вопрос:

Есть ли общепринятая практика для проверки порядка РЧ предикторов? Или это скорее художественное начинание?

Большое спасибо.

...