У меня есть некоторые интуитивные проблемы с проверкой силы предсказания с перекрестной проверкой, я думаю, что не могу получить алгоритм на 100%. На примере хочу рассказать о своих интуитивных проблемах. Пусть k = 5 (количество складок) и
library(caret)
x=runif(100)
z=rexp(100)
y=rnorm(100)
Q=data.frame(x,z,y)
train.control <- trainControl(method = "cv", number = 5)
train(y~x+z,method="lm",data=Q,trControl=train.control)
И на выходе я получил:
100 samples
2 predictor
No pre-processing
Resampling: Cross-Validated (5 fold)
Summary of sample sizes: 80, 80, 80, 80, 80
Resampling results:
RMSE Rsquared MAE
1.032508 0.1272826 0.8213676
Tuning parameter 'intercept' was held constant at a value of TRUE
и мои вопросы:
(1) почему мой Выборка была разделена на подвыборки длиной: 80,80,80,80,80 вместо 20,20,20,20,20? Длина y, x и z равна 100, а не 400.
(2) алгоритм рисует только из x и z или из x, y и z?
(3) что делает алгоритм после рандомизации? Ничего не могу найти в inte rnet. Я только видел, что он вычисляет RMSE и MAE. Но, например, MAE вычисляет абсолютное значение разницы между y и y.hat. Я считаю, что h.hat - это значения, прогнозируемые моделью y ~ x + z (например, если я рисую x = 0,05 и z = 0,16, тогда y.hat = 0,21). Но я понятия не имею, что такое y для этих номеров розыгрышей, и я не могу представить себе возможность выбрать правильный.
Пожалуйста, ответьте на мои интуитивные проблемы или просто дайте мне хорошую страницу, чтобы прочитать об этом ? На всех страницах, которые я прочитал, я не мог найти решения своих проблем. Заранее спасибо.