Перекрестная проверка K-Fold сама по себе не уменьшит переобучение, но ее использование, как правило, поможет вам лучше понять вашу модель, что в конечном итоге поможет вам избежать или уменьшить переобучение.
Использование Простое обучение / разделение проверки, модель может работать хорошо, если способ разделения не указывает на истинное распределение данных. Перекрестная проверка K-Fold разбивает данные на k
чанков и выполняет обучение k
раз, используя определенный чанк в качестве набора проверки, а остальные чанки в качестве обучающего набора. Следовательно, модель может работать довольно хорошо в некоторых тренировочных сгибах, но относительно хуже в других тренировочных сгибах. Это даст вам лучшее представление о том, насколько хорошо работает модель.
Если достигнута относительно высокая точность обучения, но существенно более низкая точность проверки указывает на переоснащение (высокая дисперсия и низкий уклон). Цель состоит в том, чтобы сохранить как дисперсию, так и систематическую ошибку на низких уровнях, возможно, за счет немного худшей точности обучения, поскольку это указывало бы на то, что изученная модель хорошо обобщена до невидимых случаев. Вы можете прочитать больше о смещении против компромисса .
Выбор количества сгибов также может сыграть роль в этом понимании, как объяснено в в этом ответе . В зависимости от размера данных используемые тренировочные сгибы могут быть слишком большими по сравнению с данными проверки.