почему мы выбрали sse (сумма квадратов ошибок), чтобы выбрать наиболее подходящую линию в линейной регрессии - PullRequest
0 голосов
/ 19 апреля 2019

мы выбираем SSE (сумма квадратов ошибок) для выбора линии наилучшего соответствия вместо суммы остатка или суммы абсолютного остатка

Ответы [ 2 ]

0 голосов
/ 20 апреля 2019

Джеймс прав, что способность формулировать оценки коэффициентов регрессии как формы линейной алгебры является одним большим преимуществом оценки наименьших квадратов (минимизация SSE), но использование оценки наименьших квадратов обеспечивает несколько других полезных свойств.

С оценкой наименьших квадратов вы минимизируете дисперсию ошибок - что часто желательно.Это дает нам лучшую линейную несмещенную оценку ( СИНИЙ ) коэффициентов (учитывая, что выполнены предположения Гаусса – Маркова).(Допущения Гаусса-Маркова и доказательство, показывающее, почему эта формулировка дает нам лучшие линейные несмещенные оценки, можно найти здесь .)

С наименьшими квадратами вы также получите уникальное решение(при условии, что у вас больше наблюдений, чем оценочных коэффициентов, и нет идеальной мультиколлинеарности).

Что касается использования суммы невязок, это не сработает, так как это будет минимизировано за счет наличия всех отрицательных невязок.Но сумма абсолютного остатка используется в некоторых линейных моделях, где вы можете захотеть, чтобы оценки были более устойчивыми к выбросам и не обязательно касались дисперсии остатков.

0 голосов
/ 19 апреля 2019

Цель состоит в том, чтобы позволить линейной алгебре непосредственно решать для коэффициентов уравнения в регрессии. Другие подходящие цели, которые вы упоминаете, не могут быть использованы таким образом. Используя производное исчисление, было обнаружено, что подходящая цель наименьшей суммы квадратов ошибок позволила получить прямое, не итеративное решение проблемы подгонки экспериментальных данных к уравнениям, которые являются линейными по своим коэффициентам - таким как стандартные полиномиальные уравнения.

...