«двоичный: логистика» использует -(y*log(y_pred) + (y-1)*(log(1-y_pred))
«рег: логистика» использует (y - y_pred)^2
Чтобы получить общую оценку ошибки, мы суммируем все ошибки и делим на количество выборок.
Вы можете найти это в основах.При взгляде на линейную регрессию VS Логистическая регрессия.
Линейная регрессия использует (y - y_pred)^2
в качестве функции стоимости
Логистическая регрессия использует -(y*log(y_pred) + (y-1)*(log(1-y_pred))
в качестве функции стоимости
Метрики оценки - это совсем другое.Они предназначены для оценки вашей модели.Они могут вас запутать, потому что логично использовать некоторые метрики оценки, которые совпадают с функцией потерь, например MSE
в задачах регрессии.Однако в бинарных задачах не всегда разумно смотреть на logloss
.Мой опыт заставил меня (в задачах классификации) вообще смотреть на AUC ROC
.
EDIT
в соответствии с документацией xgboost:
reg:линейный: линейная регрессия
рег: логистика: логистическая регрессия
двоичный: логистика: логистическая регрессия для двоичной классификации, выходная вероятность
Итак, я предполагаю:
reg: linear: как мы уже говорили, (y - y_pred)^2
reg: логистика -(y*log(y_pred) + (y-1)*(log(1-y_pred))
и округление прогнозов с 0,5 порога
двоичное: логистика простое -(y*log(y_pred) + (y-1)*(log(1-y_pred))
(возвращает вероятность)
Вы можете проверить это и посмотреть, будет ли это так, как я редактировал.Если да, я обновлю ответ, в противном случае я просто удалю его: <</p>