Как K-Fold предотвращает переоснащение в модели - PullRequest
0 голосов
/ 30 апреля 2020

Я тренирую многослойный персептрон. У меня есть два вопроса, первый из которых заключается в том, как K-образное сгибание предотвращает переоснащение, потому что разделение поезд-тест-тест также делает то же самое, что принимает участие в обучении и проверяет модель, так же, как и для K-сгибов, вместо того, чтобы просто иметь несколько сгибов. Но есть вероятность переоснащения в train_test_split, тогда как K fold предотвращает это, потому что в моей модели восприятия также можно получить переоснащение в составную часть K fold, как вы думаете? Второй вопрос заключается в том, что я получаю 95% + точность от K Fold, сэр сказал мне, что существует слишком большая дисперсия, как это возможно здесь, потому что K Fold разрешает это переоснащение?

Ответы [ 2 ]

1 голос
/ 30 апреля 2020

Перекрестная проверка K-Fold сама по себе не уменьшит переобучение, но ее использование, как правило, поможет вам лучше понять вашу модель, что в конечном итоге поможет вам избежать или уменьшить переобучение.

Использование Простое обучение / разделение проверки, модель может работать хорошо, если способ разделения не указывает на истинное распределение данных. Перекрестная проверка K-Fold разбивает данные на k чанков и выполняет обучение k раз, используя определенный чанк в качестве набора проверки, а остальные чанки в качестве обучающего набора. Следовательно, модель может работать довольно хорошо в некоторых тренировочных сгибах, но относительно хуже в других тренировочных сгибах. Это даст вам лучшее представление о том, насколько хорошо работает модель.

Если достигнута относительно высокая точность обучения, но существенно более низкая точность проверки указывает на переоснащение (высокая дисперсия и низкий уклон). Цель состоит в том, чтобы сохранить как дисперсию, так и систематическую ошибку на низких уровнях, возможно, за счет немного худшей точности обучения, поскольку это указывало бы на то, что изученная модель хорошо обобщена до невидимых случаев. Вы можете прочитать больше о смещении против компромисса .

Выбор количества сгибов также может сыграть роль в этом понимании, как объяснено в в этом ответе . В зависимости от размера данных используемые тренировочные сгибы могут быть слишком большими по сравнению с данными проверки.

0 голосов
/ 30 апреля 2020

K кратность может помочь с переоснащением, потому что вы по существу разбиваете свои данные на различные расщепления тестов по сравнению с однократными Запустив тестирование поезда, разделив его на несколько разных наборов, а не на один, вы получите лучшее представление о том, как ваша модель фактически работает с набором данных и невидимыми данными. Это не полностью предотвращает это, и все сводится к вашим данным в конце дня (если данные, которые вы обучаете, тестируете и проверяете, не являются действительно репрезентативными для будущих точек, вы все равно можете получить модель избыточного соответствия).

...