Да, вы делаете все правильно. Весь смысл использования K-кратной перекрестной проверки заключается в том, что у нас ограниченные данные, и это гарантирует, что каждое наблюдение из исходного набора данных может появиться в обучающем и тестовом наборе.
Шаги, как вы упомянули:
Случайно разбить все данные на k сгибов (значение k не должно быть слишком маленьким или слишком большим, в идеале мы выбираем от 5 до 10 в зависимости от размера данных).
Затем подгоните модель, используя сгибы K - 1, и подтвердите модель, используя оставшийся K-й сгиб. Сохраните счет и ошибки.
Повторяйте этот процесс до тех пор, пока каждый K-кратный набор не станет тестовым набором. Затем возьмите среднее значение ваших зарегистрированных результатов. Это будет показатель производительности c для модели.
Правка для точки 1: более высокое значение K приводит к менее смещенной модели, но большая разница может привести к переобучению, где, как нижнее значение K аналогично подходу разделения поезда-теста. Поэтому мы выбираем значение k в диапазоне от 5 до 10. Вы можете поэкспериментировать с этими значениями, чтобы получить более высокую производительность metri c.