(я планировал комментировать, но это вышло слишком долго ....)
Сводка модели lm сообщает о R2 для модели формы (для простоты используется только один зависимый var)
lm(dependent_variable + independent_variable + factor(country))
Вывод модели plm сообщает о R2 из модели
lm(dependent_var_demean ~ independent_var_demean)
Где независимые_вари_данные и зависимые_вари_для вычисляются путем вычитания для каждого наблюдения средних значений зависимых и независимых переменных для каждого наблюдения.
Как оказалось, коэффициент регрессии на independent_var одинаков в обоих случаях. R2 в первой модели намного больше, так как имеет N + 1 объясняющих переменных, в то время как вторая модель имеет только 1.
Какой из R2 тогда «правильный»? Это зависит от контекста. Если вы рассматриваете отдельные FE как параметры неприятности и интересуетесь только коэффициентом регрессии для independent_variable, вы будете более последовательны в представлении отчета о R2 из внутренней модели (или «вывода plm»). В некоторых приложениях отдельные FE также могут быть интересны, поскольку они отражают некоторые ненаблюдаемые качества, которые влияют как на зависимые, так и на независимые переменные. В этом случае LSDV R2 (сообщаемый lm) может быть более актуальным.
Тем не менее, следует отметить, что в типичных ситуациях с большим N / малым T (т. Е. Во многих единицах наблюдалось всего несколько раз) отдельные оценки КЭ могут быть смещены. Это известно как проблема случайных параметров.
Наконец, я думаю, что мне нужно дать небольшой привет пакету lfe для выполнения регрессий с фиксированными эффектами. Это очень эффективно с большими панелями, синтаксис IMO лучше, чем в plm, а кластерные и устойчивые стандартные ошибки обрабатываются более элегантно по сравнению с plm. Он также сообщает об обоих R2 в сводном выводе.