Это неизвестная территория, поэтому, пожалуйста, дайте мне знать, если вопрос не ясен.
Я пытаюсь подобрать случайный лес с помощью каретки.У меня есть набор данных около 160 наблюдений, где 60/160 - это повторные измерения, поэтому мне нужно убедиться, что одни и те же идентификаторы (пациенты) не используются для обучения и проверки.Из-за этого я использовал groupKFold, чтобы создать 5 сгибов перед тренировкой модели.
Что я не могу понять, так это в какой момент я использую / выбираю данные для фактического тестирования / проверки ПОСЛЕ обучения модели?Другими словами, где находятся "новые данные"?predict(rf_mod, "??")
folds <- groupKFold(rf_data$id, k = 5)
rf_data <- rf_data %>% select(-id)
fitControl <- trainControl(method = "cv",
number = 5,
index = folds,
search = "random")
rf_mod <- train(cancer ~ ., rf_data,
method = "rf",
trControl = fitControl)