R: разница между PLM и моделью LSDV - PullRequest
0 голосов
/ 09 ноября 2018

Я только начинаю оборачиваться вокруг фиксированных эффектов, поэтому извиняюсь, если вопросы излишни.На основе слайдов Panel101 Оскара Торреса-Рейна (https://www.princeton.edu/~otorres/Panel101R.pdf), Я сравниваю вывод двух разных кодов:

  1. lsdv <- lm(formula=dependent_variable~poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2)degree = 2, raw=TRUE) + factor(country) -1, data=mydata)

  2. plm <- plm(formula=dependent_variable ~ poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2), data=mydata, model="within, index=c(country)

В соответствии со слайдами Panel101 обе модели дают одинаковые коэффициенты, но скорректированное значение R2 сильно отличается (0,954 против 0,119).

Я что-то не так делаю или как это можно объяснить?

Спасибо!

1 Ответ

0 голосов
/ 09 ноября 2018

(я планировал комментировать, но это вышло слишком долго ....)

Сводка модели lm сообщает о R2 для модели формы (для простоты используется только один зависимый var)

lm(dependent_variable + independent_variable + factor(country))

Вывод модели plm сообщает о R2 из модели

lm(dependent_var_demean ~ independent_var_demean)

Где независимые_вари_данные и зависимые_вари_для вычисляются путем вычитания для каждого наблюдения средних значений зависимых и независимых переменных для каждого наблюдения.

Как оказалось, коэффициент регрессии на independent_var одинаков в обоих случаях. R2 в первой модели намного больше, так как имеет N + 1 объясняющих переменных, в то время как вторая модель имеет только 1.

Какой из R2 тогда «правильный»? Это зависит от контекста. Если вы рассматриваете отдельные FE как параметры неприятности и интересуетесь только коэффициентом регрессии для independent_variable, вы будете более последовательны в представлении отчета о R2 из внутренней модели (или «вывода plm»). В некоторых приложениях отдельные FE также могут быть интересны, поскольку они отражают некоторые ненаблюдаемые качества, которые влияют как на зависимые, так и на независимые переменные. В этом случае LSDV R2 (сообщаемый lm) может быть более актуальным.

Тем не менее, следует отметить, что в типичных ситуациях с большим N / малым T (т. Е. Во многих единицах наблюдалось всего несколько раз) отдельные оценки КЭ могут быть смещены. Это известно как проблема случайных параметров.

Наконец, я думаю, что мне нужно дать небольшой привет пакету lfe для выполнения регрессий с фиксированными эффектами. Это очень эффективно с большими панелями, синтаксис IMO лучше, чем в plm, а кластерные и устойчивые стандартные ошибки обрабатываются более элегантно по сравнению с plm. Он также сообщает об обоих R2 в сводном выводе.

...