Почему случайный лес работает хуже, чем дерево решений - PullRequest
0 голосов
/ 23 мая 2018

У меня есть набор данных с 1962 наблюдениями и 46 столбцами.Столбец 46 является целью.6 других столбцов являются номинальными переменными, а остальные - порядковыми.Я предварительно обработал их следующим образом:

for (i in c(1:4,6,9,46)){
    cw_alldata_known[,i] <- as.factor(cw_alldata_known[,i])
}

for (i in c(5,7,8,10:45)){
  cw_alldata_known[,i] <- as.ordered(cw_alldata_known[,i])
}

Затем я делю их 50/50 на тренировочные и тестовые наборы.Я установил дерево решений, используя пакет party R:

cw.ctree <- ctree(cr~.,data = cw.train)

Затем я также применил модель случайного леса:

cw.forest <- randomForest(credit.rating ~ ., data=cw.train,ntree=107)

Я пробовал другие значения ntree, но 107кажется лучшим.Точность в тестовом наборе дерева решений составляет около 61%, в то время как случайный лес - только 56%.Я читал, что случайный лес часто более устойчив и надежен.Почему в этом случае он не работает лучше, чем дерево решений?

...