в целом вы можете разделить ваши данные на 3 набора.
- тренировочный набор
- проверочный набор
- испытательный набор
Испытательный набор:
Испытательный комплект является самым простым Чтобы объяснить.
После того, как вы создали свой набор тестов (15-30% данных). Вы храните этот набор данных где-то, и вы НЕ ПРИКАСАЕТЕ этот набор данных НИКОГДА, пока не решите, что все готово.
- Причина этого проста, как только вы начинаете фокусироваться на этом наборе данных (например, чтобы увеличить AU). C или ...) тогда вы начинаете перегонять свои данные ...
То же самое относится и к набору валидации (+/-). Когда вы настраиваете свои параметры, et c. вы начинаете концентрироваться на этом наборе ... что означает, что вы больше не обобщаете. (и хорошая модель должна работать со всеми данными, а не только с набором тестов и проверок).
Как уже говорилось, теперь у вас есть только набор тренировок и проверок.
Перекрестная проверка: некоторые мотивы для использования перекрестной проверки должны иметь лучшее обобщение и представление вашей модели / данных (представьте, что некоторые особые случаи существовали только в наборе проверки и т. Д. c. + Вы не принимаете единственного решения как само собой разумеющееся. - главный недостаток, например, 10-кратной перекрестной проверки - это ... 10-кратное увеличение до конечной sh ... но это дает вам более достоверные результаты ... (например, если вы делаете 10-кратное перекрестное подтверждение проверка и ваш AU C колеблется от 80 85 75 77 81 65 ... -> тогда у вас могут возникнуть проблемы с данными ... в идеальном случае разница между AU C должна быть небольшой ...
Тем не менее ... что бы я сделал (и это также зависит от ваших ресурсов, модели, времени, размера набора данных)
, но всегда использовали одинаковые сгибы для каждого нового эксперимента, таким образом, вы можете сравнить модели друг с другом. + Часто вы увидите, что некоторые складки сложнее, чем другие, но они сложны для всех моделей