У меня есть набор для разработки (я называю его отличным guish от обучающего набора) и независимый набор для тестирования. Набор разработчика разделен на k сгибов, чтобы выполнить перекрестную проверку в k раз (используя GridSearchCV). Для отдельного классификатора проблем нет, но при построении многослойной ансамблевой модели (мета-ученик) я обнаружил, что это немного смущает. Я обсуждал с некоторыми из моих старших учеников, как построить модель с накопленным ансамблем (используя вероятность в качестве новой входной функции).
Они сказали:
Сначала возьмите (k-1) тренировочный сгиб, чтобы обучить один классификатор. Далее, дайте обучающему свертку go через единственный созданный им классификатор, а также дайте проверочный сгиб через этот единственный классификатор для вывода. новая функция (значение вероятности).
Но, таким образом, я нахожу немного проблематичным c, потому что, если вы используете один классификатор для создания генератора функций, а затем снова и для тренировочного сгиба, и для проверки сгибания и go через этот единственный классификатор (созданный по учебной складке). Это означает, что мы непреднамеренно нормализовали тренировочный фолд и фальшивый фолд с одним и тем же коэффициентом масштабирования и привели к переобучению.
Это то, что я чувствую, я не знаю, правда ли это, я надеюсь получить предложения и указания .