Является ли потеря лучшей константы основанной на потере нулевой модели в линейной регрессии?
Если под нулевой моделью вы подразумеваете модель, которая всегда предсказывает лучшую постоянную, то да.
Является ли общее правило, согласно которому "средняя потеря" не лучше, чем "потеря наилучшей константы", применимо ко всем функциям потерь?
Да. Если, используя всегда одно и то же предсказание (некоторую наилучшую константу, применимую к данной функции потерь), вы работаете лучше, чем изученная модель, это означает, что изученная модель уступает самой простой из возможных моделей. Простейшая модель для данной функции потерь всегда предсказывает один и тот же (наилучшая постоянная) результат, игнорируя входные данные в данных.
Одним из наиболее распространенных случаев, когда изученная модель уступает модели с наилучшей константой, является слишком маленький набор данных. Когда набор данных невелик, у процесса обучения еще не было возможности полностью сходиться. Это также известно как занижение.
Как рассчитывается лучшая постоянная (для полноты)?
В случае линейной регрессии (гиперплоскость наименьших квадратов, vw --loss_function squared
, по умолчанию) лучшая константа - это простое среднее (он же означает ) меток. Это сводит к минимуму квадратичные потери.
В случае квантильных потерь (он же абсолютная ошибка, vw --loss_function quantile
) наилучшей константой является медиана от меток и минимизирует сумму расстояний между метками и прогнозом.