Чтобы использовать набор проверки 5-кратной перекрестной проверки в ранней остановке Xgboost Gridsearch, чтобы преодолеть проблему чрезмерной подгонки
Я бы разделил данные на поезд + проверка + тест, но количество записей оченьменьше, поэтому я не хочу записывать набор для проверки.
Я прочитал много ответов, но не ясно, как использовать 5-й набор 5-кратной перекрестной проверки, который не используется в обучении
Второй подход: я думал об использовании данных тренировки в качестве метрики оценки, но не уверен, верны они или нет
Кроме того, я не хочу использовать свои тестовые данные.
params_xgb = {
"max_depth" : range(7,10,2),
"n_estimators" : [50,100]
}
clf_x = xgb.XGBClassifier(subsample=.85,
colsample_bytree=.65,seed=100,n_jobs=40,n_estimators = 1000)
gscv.fit(X_train, y_train,eval_metric=["aucpr"],early_stopping_rounds=5,
eval_set=[(?,?])
gscv.fit(X_train[predictors], y_train,eval_metric=["aucpr"])
Любые предложения и рекомендации действительно приветствуются. Я застрял в нем 2 дня, все еще в поисках удовлетворительного ответа.
Я понимаю, что это повторяющийся вопрос, но большая часть ответа содержит использование тестовых данных