Уровень фактора совершенно мультиколлинеарен - как узнать почему? - PullRequest
0 голосов
/ 03 апреля 2019

Я анализирую данные по недвижимости, в которых год продажи закодирован как фактор 2010-2018. При работе модели OLS 2010 автоматически пропускается, как и должно быть, но коэффициенты и т. Д. Для 2018 года обозначаются как NA Псевдоним (ols) говорит мне, что год2018 - это проблема, но у меня нет никаких признаков того, что год2018 действительно идеально коррелирует с любой другой переменной. Как мне выяснить, в чем проблема?

Я проверил, правильно ли кодируется год как фактор, и это так.

Выход OLS за 2010–2018 годы показывает

PSUB1$year2011               -1.598e-01  1.755e-02  -9.105  < 2e-16 ***
PSUB1$year2012               -2.060e-01  1.573e-02 -13.101  < 2e-16 ***
PSUB1$year2013               -1.807e-01  1.400e-02 -12.908  < 2e-16 ***
PSUB1$year2014               -1.402e-01  1.341e-02 -10.462  < 2e-16 ***
PSUB1$year2015               -1.250e-01  1.284e-02  -9.739  < 2e-16 ***
PSUB1$year2016               -9.490e-02  1.249e-02  -7.595 3.86e-14 ***
PSUB1$year2017               -4.511e-02  1.272e-02  -3.546 0.000396 ***
PSUB1$year2018                       NA         NA      NA       NA   

2010 снят, как и должно быть, но 2018 - это все НС.

Я использовал

alias(ols)

и

ld.vars <- attributes(alias(ols)$Complete)$dimnames[[1]]

чтобы определить, что PSUB1 $ year2018 - это проблема, но она не говорит мне, с чем она совершенно коллинеарна. 2010 год снят, поэтому сам фактор-фактор не должен быть проблемой.

Я ожидаю, что PSUB1 $ year2018 выдаст коэффициент и стандартную ошибку, как и другие двоичные файлы. Это только проблема с этим вектором фактора; в модели есть и другие векторы факторов, которые прекрасно работают.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...