У меня есть случайная модель леса, чтобы предсказать цены продажи домов. Выход модели после тюнинга выглядит следующим образом:
> print(rf1)
Call:
randomForest(formula = price ~ ., data = train, mtry = 5, ntree = 300, importance = T, proximity = T, do.trace = T)
Type of random forest: regression
Number of trees: 300
No. of variables tried at each split: 5
Mean of squared residuals: 34804126985
% Var explained: 73.67
> cor(p2, test$price)
[1] 0.8523592
> caret::RMSE(p2, test$price)
[1] 197536.8
> mean(rf1$mse)
[1] 36350888740
Я хочу знать, допустимы ли значения mse и rmse, так как я обычно знаю, что чем меньше значения, тем лучше. Но в этом случае значения намного выше. Кроме того, значение R ^ 2 составляет 0,7367, что довольно хорошо. Имеет ли смысл вычисление точности 0,8523592 в случае регрессии?
Код после настройки 1-й модели случайного леса выглядит следующим образом:
# tuning the rf model
t <- tuneRF(train[, -1], train[, 1],
ntreeTry = 300,
plot = T,
stepFactor = 0.5,
trace = T)
?tuneRF
# rf model again
rf1 <- randomForest(price ~ ., data = train, mtry = 5, ntree = 300, importance = T,
proximity = T, do.trace = T)
Кроме того, в настроенной модели от 1-й модели нет особых улучшений.