Приемлемы ли выходные значения модели случайного леса? - PullRequest
0 голосов
/ 07 июня 2019

У меня есть случайная модель леса, чтобы предсказать цены продажи домов. Выход модели после тюнинга выглядит следующим образом:

> print(rf1)

Call:
 randomForest(formula = price ~ ., data = train, mtry = 5, ntree = 300,      importance = T, proximity = T, do.trace = T) 
               Type of random forest: regression
                     Number of trees: 300
No. of variables tried at each split: 5

          Mean of squared residuals: 34804126985
                    % Var explained: 73.67
> cor(p2, test$price)
[1] 0.8523592
> caret::RMSE(p2, test$price)
[1] 197536.8
> mean(rf1$mse)
[1] 36350888740

Я хочу знать, допустимы ли значения mse и rmse, так как я обычно знаю, что чем меньше значения, тем лучше. Но в этом случае значения намного выше. Кроме того, значение R ^ 2 составляет 0,7367, что довольно хорошо. Имеет ли смысл вычисление точности 0,8523592 в случае регрессии?

Код после настройки 1-й модели случайного леса выглядит следующим образом:

# tuning the rf model
t <- tuneRF(train[, -1], train[, 1],
            ntreeTry = 300,
            plot = T,
            stepFactor = 0.5,
            trace = T)
?tuneRF

# rf model again
rf1 <- randomForest(price ~ ., data = train, mtry = 5, ntree = 300, importance = T,
                    proximity = T, do.trace = T)

Кроме того, в настроенной модели от 1-й модели нет особых улучшений.

...