У меня есть набор данных с 1962 наблюдениями и 46 столбцами.Столбец 46 является целью.6 других столбцов являются номинальными переменными, а остальные - порядковыми.Я предварительно обработал их следующим образом:
for (i in c(1:4,6,9,46)){
cw_alldata_known[,i] <- as.factor(cw_alldata_known[,i])
}
for (i in c(5,7,8,10:45)){
cw_alldata_known[,i] <- as.ordered(cw_alldata_known[,i])
}
Затем я делю их 50/50 на тренировочные и тестовые наборы.Я установил дерево решений, используя пакет party
R:
cw.ctree <- ctree(cr~.,data = cw.train)
Затем я также применил модель случайного леса:
cw.forest <- randomForest(credit.rating ~ ., data=cw.train,ntree=107)
Я пробовал другие значения ntree
, но 107кажется лучшим.Точность в тестовом наборе дерева решений составляет около 61%, в то время как случайный лес - только 56%.Я читал, что случайный лес часто более устойчив и надежен.Почему в этом случае он не работает лучше, чем дерево решений?