Понятие о «потере наилучшей константы» в выводе vowpal wabbit и заявленное правило в учебнике - PullRequest
1 голос
/ 17 февраля 2020

Я пытаюсь понять vowpal немного больше и наткнулся на это утверждение в учебнике по линейной регрессии. (https://vowpalwabbit.org/tutorials/getting_started.html)

"В конце печатаются некоторые более простые итоги. Лучшая постоянная и лучшая постоянная потеря работают, только если вы используете квадратную потерю. Квадратная потеря - это Vowpal Wabbit по умолчанию. Они вычисляют предиктор лучшей константы и потерю предиктора лучшей константы.

Если средняя потеря не лучше потери лучшей константы, что-то не так. В этом случае у нас слишком мало примеров для обобщения . "

Исходя из этого контекста, у меня есть 2 связанных вопроса:

  1. Является ли потеря наилучшей константы основанной на потере нулевой модели в линейной регрессии?
  2. Является ли общее эмпирическое правило, согласно которому «средняя потеря» не лучше, чем «потеря лучшей константы», применимо ко всем функциям потерь (поскольку в утверждении действительно говорится, что «лучшая константа» работает только для функции квадрата потерь по умолчанию)?

Заранее спасибо за любые ответы!

1 Ответ

1 голос
/ 19 февраля 2020

Является ли потеря лучшей константы основанной на потере нулевой модели в линейной регрессии?

Если под нулевой моделью вы подразумеваете модель, которая всегда предсказывает лучшую постоянную, то да.

Является ли общее правило, согласно которому "средняя потеря" не лучше, чем "потеря наилучшей константы", применимо ко всем функциям потерь?

Да. Если, используя всегда одно и то же предсказание (некоторую наилучшую константу, применимую к данной функции потерь), вы работаете лучше, чем изученная модель, это означает, что изученная модель уступает самой простой из возможных моделей. Простейшая модель для данной функции потерь всегда предсказывает один и тот же (наилучшая постоянная) результат, игнорируя входные данные в данных.

Одним из наиболее распространенных случаев, когда изученная модель уступает модели с наилучшей константой, является слишком маленький набор данных. Когда набор данных невелик, у процесса обучения еще не было возможности полностью сходиться. Это также известно как занижение.

Как рассчитывается лучшая постоянная (для полноты)?

В случае линейной регрессии (гиперплоскость наименьших квадратов, vw --loss_function squared, по умолчанию) лучшая константа - это простое среднее (он же означает ) меток. Это сводит к минимуму квадратичные потери.

В случае квантильных потерь (он же абсолютная ошибка, vw --loss_function quantile) наилучшей константой является медиана от меток и минимизирует сумму расстояний между метками и прогнозом.

...