В моделируемой линейной регрессии почему стандартное отклонение пропорционально квадрату root переменной? - PullRequest
0 голосов
/ 15 января 2020

In Введение в R , Приложение A - это "Образец сеанса", предназначенный для первого знакомства с R.

Он включает в себя симуляцию линейной регрессии:

x <- 1:20

Make x = (1, 2,…, 20).

w <- 1 + sqrt(x)/2

Вектор весовых коэффициентов стандартных отклонений.

dummy <- data.frame(x=x, y= x + rnorm(x)*w)

dummy

Создание фрейма данных двух столбцов, x и y, и посмотрите на это.

fm <- lm(y ~ x, data=dummy)

summary(fm)

Подберите простую линейную регрессию и посмотрите на анализ. С y слева от тильды мы моделируем y в зависимости от x.

Вектор w создается для предоставления значений ошибок, которые будут добавлены к значениям y. Я могу понять, что стандартные отклонения должны быть больше для больших значений y. Но может показаться, что они должны быть пропорциональны значению y. Так почему квадрат root? Кроме того, если значение y добавляется к значению ошибки, не должны ли они быть одинаковыми по размерам?

Я, должно быть, что-то упускаю из-за c. Поэтому мой вопрос: почему стандартные отклонения в линейной регрессии пропорциональны квадрату root, а не самой переменной?

1 Ответ

1 голос
/ 15 января 2020

Вы упускаете суть упражнения, потому что остановились до того, как добрались до самой важной части.

Используя стандартную линейную регрессию, вы хотите найти линию наилучшего соответствия между x и y. Эта линия будет иметь формулу y = ax + b, где a - градиент линии, а b - перехват. Конечно, ваши отдельные точки данных не будут точно соответствовать этой строке, но будут разбросаны выше и ниже ее. Расстояние по вертикали от каждой точки до линии наилучшего соответствия будет невязкой модели по отношению к этой точке.

В прямой линейной регрессии предполагается, что невязки будут нормально распределенный, со средним нулем и фиксированным стандартным отклонением. Значение стандартного отклонения не становится больше при больших значениях x или y. Однако данные не всегда должны вести себя таким образом, и иногда стандартное отклонение будет зависеть от значения x (подумайте об измерениях расстояний: вы можете измерить край таблицы с точностью до миллиметра, но ваша ошибка будет намного больше, если вы измеряете расстояние между горными вершинами). Это свойство стандартного отклонения, изменяющегося как функция x, известно как heteroscadisity .

. Нам необходимо учитывать гетероскадность при выполнении линейной регрессии. В противном случае большие отклонения на одном конце нашей линии могут повлиять на нашу оценку градиента линии и точки пересечения. Если мы знаем, что стандартное отклонение становится больше при больших значениях x, нам нужно придавать меньший вес измерениям при больших значениях x.

Переменная w фактически показывает, что функция lm может обрабатывать гетероскадность с помощью параметра weights.

Вот полный пример:

w <- 1 + sqrt(x)/2 # A ‘weight’ vector of standard deviations.
dummy <- data.frame(x=x, y= x + rnorm(x)*w)
dummy 
# Make a data frame of two columns, x and y, and look at it.

fm <- lm(y ~ x, data=dummy) 
summary(fm)
# Fit a simple linear regression and look at the analysis. 
# With y to the left of the tilde, we are modelling y dependent on x.


fm1 <- lm(y ~ x, data=dummy, weight=1/w^2) 
summary(fm1)
# Since we know the standard deviations, we can do a weighted regression.

Последний фрагмент является полной причиной включения переменной w.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...