Добро пожаловать в Stack Overflow, Ману. Разница в том, что результат, который вы видите при вызове Model_RF_RF
, является результатом OOB (Out of Bag), а результат, который вы печатаете в конце, - результат вашего тренировочного набора.
Как вы знаете, случайные леса используют пакетирование, что означает, что они используют загрузочную выборку ваших данных для выращивания деревьев. Это означает, что каждая отдельная запись в вашем наборе данных будет использоваться только в части всех деревьев, которые вы выращиваете, то есть тех, которые нарисовали запись во время начальной загрузки. Таким образом, оценка OOB получается путем прогнозирования записей с использованием только деревьев, которые НЕ включают указанные записи в bootstrap, поэтому каждое дерево прогнозирует только те данные, которые оно никогда не видело - и это дает хорошие (часто слегка пессимистичные c) ) оценка вашей тестовой ошибки.
Таким образом, похоже, что ваша точность обучения очень хорошая, в то время как тестовая - довольно низкая (как предполагает оценка OOB). Вы можете попробовать и протестировать свою модель на некоторых данных проверки или использовать перекрестную проверку, и вы должны получить оценку, аналогичную вашей OOB.
Попробуйте изменить значение mtry
, увеличьте количество деревьев или сделайте еще несколько функций. Удачи!