Как использовать набор данных перекрестной проверки в наборе оценки Xgboost для раундов ранней остановки - PullRequest
0 голосов
/ 22 октября 2019

Чтобы использовать набор проверки 5-кратной перекрестной проверки в ранней остановке Xgboost Gridsearch, чтобы преодолеть проблему чрезмерной подгонки

Я бы разделил данные на поезд + проверка + тест, но количество записей оченьменьше, поэтому я не хочу записывать набор для проверки.

Я прочитал много ответов, но не ясно, как использовать 5-й набор 5-кратной перекрестной проверки, который не используется в обучении

Второй подход: я думал об использовании данных тренировки в качестве метрики оценки, но не уверен, верны они или нет

Кроме того, я не хочу использовать свои тестовые данные.

params_xgb = {
"max_depth" : range(7,10,2),
"n_estimators" : [50,100]
}


clf_x = xgb.XGBClassifier(subsample=.85, 
colsample_bytree=.65,seed=100,n_jobs=40,n_estimators = 1000)

gscv.fit(X_train, y_train,eval_metric=["aucpr"],early_stopping_rounds=5, 
eval_set=[(?,?])
gscv.fit(X_train[predictors], y_train,eval_metric=["aucpr"])

Любые предложения и рекомендации действительно приветствуются. Я застрял в нем 2 дня, все еще в поисках удовлетворительного ответа.

Я понимаю, что это повторяющийся вопрос, но большая часть ответа содержит использование тестовых данных

...