Мой набор данных содержит 5851 наблюдений и разбит на поезд (3511 наблюдений) и тестовый набор (2340 наблюдений). Теперь я хочу обучить модель, используя KNN, с двумя переменными. Я хочу сделать 10-кратное резюме, повторенное 5 раз, используя RO C metri c и правило единой ошибки, а переменные предварительно обрабатываются. Код показан ниже.
set.seed(44780)
ctrl_repcvSE <- trainControl(method = "repeatedcv", number = 10, repeats = 5,
summaryFunction = twoClassSummary, classProbs = TRUE,
selectionFunction = "oneSE")
tune_grid <- expand.grid(k = 45:75)
mod4 <- train(purchased ~ total_policies + total_contrib,
data = mhomes_train, method = "knn",
trControl= ctrl_repcvSE, metric = "ROC",
tuneGrid = tune_grid, preProcess = c("center", "scale"))
Проблема, с которой я столкнулся, состоит в том, что я уже пробовал так много разных значений K (например, K = 10:20, 30:40, 50:60, 150: 160 + различные длины настройки. Однако каждый раз, когда на выходе говорится, что выбранное значение для K является последним, так, например, для значений K = 70:80, выбранное значение для K = 80, каждый раз, когда я делаю Это означает, что я должен смотреть дальше, потому что если выбранное значение K в этом случае, то есть лучшие значения K, которые выше 80. Как мне в конечном итоге найти это значение?
Назначение только определяет : Для k-ближайших соседей изучите разумные значения k, используя только переменные total_policies и total_contrib.