В чем разница между множественным R-квадратом и скорректированным R-квадратом в регрессии наименьших квадратов с одной вариацией? - PullRequest
39 голосов
/ 20 мая 2010

Может ли кто-нибудь объяснить статистически наивному, в чем разница между Multiple R-squared и Adjusted R-squared? Я делаю регрессионный анализ одной вариации следующим образом:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))

Результаты:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 

Ответы [ 4 ]

60 голосов
/ 20 мая 2010

«Корректировка» в скорректированном R-квадрате связана с количеством переменных и количеством наблюдений.

Если вы продолжите добавлять переменные (предикторы) в вашу модель, R-квадрат улучшится, то есть предикторы, как представляется, объясняют дисперсию, но некоторые из этих улучшений могут быть вызваны только случайностью. Таким образом, скорректированный R-квадрат пытается исправить это, принимая во внимание соотношение (N-1) / (N-k-1), где N = количество наблюдений и k = количество переменных (предикторов).

Вероятно, это не проблема в вашем случае, так как у вас есть один вариант.

Некоторые ссылки:

  1. Как высоко, R-квадрат?
  2. Статистика соответствия качества
  3. Множественная регрессия
  4. Re: Что такое «Скорректированная R ^ 2» в множественной регрессии
8 голосов
/ 20 мая 2010

Скорректированный R-квадрат близок к значению R2, но отличается от него. Вместо того, чтобы основываться на объясненной сумме квадратов SSR и общей сумме квадратов SSY, она основана на общей дисперсии (величина, которую мы обычно не вычисляем), s2T = SSY / (n - 1) и дисперсии ошибок MSE (из таблицы ANOVA) и работает так: скорректированный R-квадрат = (s2T - MSE) / s2T.

Этот подход обеспечивает лучшую основу для оценки улучшения соответствия за счет добавления пояснительной переменной, но он не имеет простой обобщающей интерпретации, которую имеет R2.

Если я не ошибся, вы должны проверить значения скорректированного R-квадрата и R-квадрата следующим образом:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

С другой стороны, R2 это: SSR / SSY, где SSR = SSY - SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY 
7 голосов
/ 20 мая 2010

R-квадрат не зависит от количества переменных в модели. Скорректированный R-квадрат равен.

Скорректированный R-квадрат добавляет штраф за добавление в модель переменных, которые не коррелируют с переменной, которую вы пытаетесь объяснить. Вы можете использовать его, чтобы проверить, соответствует ли переменная тому, что вы пытаетесь объяснить.

Скорректированный R-квадрат - это R-квадрат с добавлением некоторых делений, чтобы сделать его зависимым от количества переменных в модели.

2 голосов
/ 30 декабря 2011

Обратите внимание, что в дополнение к числу прогнозирующих переменных приведенная выше формула скорректированного R-квадрата также корректирует размер выборки. Небольшой образец даст обманчиво большой R-квадрат.

Ping Yin & Xitao Fan, J. of Experimental Education 69 (2): 203-224, «Оценка R-квадрата усадки при множественной регрессии», сравнивает различные методы для корректировки r-квадрата и приходит к выводу, что наиболее часто используемые из них приведенные выше не хороши. Они рекомендуют формулу Олкина и Пратта.

Однако я видел некоторые признаки того, что численность населения оказывает гораздо большее влияние, чем любая из этих формул. Я не убежден, что какая-либо из этих формул достаточно хороша, чтобы позволить вам сравнивать регрессии, выполненные с очень разными размерами выборки (например, 2000 против 200 000 выборок; стандартные формулы почти не производят корректировки на основе размера выборки). Я бы сделал некоторую перекрестную проверку, чтобы проверить r-квадрат на каждом образце.

...