Я работаю над проектом машинного обучения и использую API-интерфейс xgboost Learning.
Я разбил свой набор данных на три части: dtrain, dval, dtest (это формат DMatrix).
Я выполняю xgb.cv () на моем dtrain, чтобы проверить правильность моих гиперпараметров.,Это распечатка поезда и ошибка тестирования.
Затем я использую в моем xgb.train список наблюдения (dtrain: 'training', dval: 'validation) для проверки производительности.
И, наконец, я выполняю xgb.predict () на моем наборе тестов.
Я не уверен, правильно ли я понимаю, как работает список наблюдения.
Мой вопрос: одинаково ли в наблюдениях и cv?Я делю dval (набор проверки) даром и теряю много данных?У меня нет большого набора данных, поэтому, если я могу избежать потери данных, это лучше!
Спасибо, что ответили :)