Вы упускаете суть упражнения, потому что остановились до того, как добрались до самой важной части.
Используя стандартную линейную регрессию, вы хотите найти линию наилучшего соответствия между x и y. Эта линия будет иметь формулу y = ax + b, где a - градиент линии, а b - перехват. Конечно, ваши отдельные точки данных не будут точно соответствовать этой строке, но будут разбросаны выше и ниже ее. Расстояние по вертикали от каждой точки до линии наилучшего соответствия будет невязкой модели по отношению к этой точке.
В прямой линейной регрессии предполагается, что невязки будут нормально распределенный, со средним нулем и фиксированным стандартным отклонением. Значение стандартного отклонения не становится больше при больших значениях x или y. Однако данные не всегда должны вести себя таким образом, и иногда стандартное отклонение будет зависеть от значения x (подумайте об измерениях расстояний: вы можете измерить край таблицы с точностью до миллиметра, но ваша ошибка будет намного больше, если вы измеряете расстояние между горными вершинами). Это свойство стандартного отклонения, изменяющегося как функция x, известно как heteroscadisity .
. Нам необходимо учитывать гетероскадность при выполнении линейной регрессии. В противном случае большие отклонения на одном конце нашей линии могут повлиять на нашу оценку градиента линии и точки пересечения. Если мы знаем, что стандартное отклонение становится больше при больших значениях x, нам нужно придавать меньший вес измерениям при больших значениях x.
Переменная w
фактически показывает, что функция lm
может обрабатывать гетероскадность с помощью параметра weights
.
Вот полный пример:
w <- 1 + sqrt(x)/2 # A ‘weight’ vector of standard deviations.
dummy <- data.frame(x=x, y= x + rnorm(x)*w)
dummy
# Make a data frame of two columns, x and y, and look at it.
fm <- lm(y ~ x, data=dummy)
summary(fm)
# Fit a simple linear regression and look at the analysis.
# With y to the left of the tilde, we are modelling y dependent on x.
fm1 <- lm(y ~ x, data=dummy, weight=1/w^2)
summary(fm1)
# Since we know the standard deviations, we can do a weighted regression.
Последний фрагмент является полной причиной включения переменной w
.