Вложенная перекрестная проверка или просто обучение / проверка / тестирование с использованием Rpart - PullRequest
0 голосов
/ 21 мая 2019

Меня смущают две концепции: оценка модели дерева решений Rpart (на основе тестовых данных после 10-кратного CV, выполненного на обучающих данных), в отличие от «вложенной перекрестной проверки».Это одно и то же?

Что я сделал

Я разделил данные на тренировочный набор (Поезд) и тестовый набор (Тест).Я выполнил функцию Rpart в R на наборе Train, который проводит 10-кратную перекрестную проверку.После этого я оценил модель, оценив AUC (площадь под кривой работы приемника) на тестовом наборе.Точно так же я сделал эти шаги для логистической регрессии.AUC дерева решений и логистической регрессии сравнивались.

Вложенная перекрестная валидация

Теперь эксперт спросил меня, была ли схема перекрестной проверки правильно вложена.Просматривая вложенную перекрестную проверку, я понял это следующим образом:

  1. внутренний цикл: выполнить (k-кратную) перекрестную проверку данных обучения для выбора модели (например, значение выбора признаков, степень полинома?),
  2. внешний цикл: выполнить (k-кратную) перекрестную проверку на тренировке + тестовый набор (вращение тестового набора), чтобы снова выбрать лучшую модель.

Путаница

Я могу проверить первый пункт.Однако я не очень хорошо понимаю второй пункт.Могу ли я сказать, что оценка характеристик моделей на тестовом наборе и сравнение их друг с другом - это внешний цикл?Следует ли использовать вложенную перекрестную проверку для выбора функции?И если да, должен ли я выполнить проверку с использованием вложенных перекрестных схем как для логистики & rpart, так и после этого сравнить AUC тестовых наборов?

...