Эффект кодирования категориальной переменной приводит к отрицательным оценкам (что не может быть правильным в моем случае) - PullRequest
0 голосов
/ 05 октября 2019

В настоящее время я анализирую занятость ящиков с летучими мышами и факторы, влияющие на их занятость. Чтобы определить наиболее значимые переменные, влияющие на занятость, я запускаю glm с занятостью в качестве моей переменной отклика (0 = занято / 1 = не занято) и различных объясняющих переменных, которые являются числовыми, за исключением одной категориальной переменной (с 4 уровнями Бат-бокс установлен на дереве/ полюс / балкон / фасад). В моем GLM я добавил +0 так Есть нет опорного уровня для категориальной переменной.

modelg <- glm(Occupancy ~ TreeCover + number_of_boxes + mounted_on + 0, family = binomial(link="cloglog"))

Это приводит к:

                       Estimate Std. Error z value Pr(>|z|)    
TreeCover               0.03075    0.01074   2.864 0.004183 ** 
number_of_boxes         0.27427    0.07427   3.693 0.000221 ***
mounted_onBALCONY     -17.42584 1146.20336  -0.015 0.987870    
mounted_onTREE         -4.97792    0.78083  -6.375 1.83e-10 ***
mounted_onFACADE       -3.10359    0.64925  -4.780 1.75e-06 ***
mounted_onPOLE         -2.42924    0.74109  -3.278 0.001046 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 314.86  on 178  degrees of freedom
Residual deviance: 140.15  on 172  degrees of freedom
AIC: 152.15

Number of Fisher Scoring iterations: 15

Однако оценка (по крайней мере) mount_onPOLE должна быть положительной (если я правильно понимаю: положительнойоценка будет означать, что установка на опорах будет иметь положительное влияние на занятость), поскольку 10 из 11 ящиков для летучих мышей, установленных на опорах, занятыЕсли я использую фиктивную кодированию (без +0) р значение уровней всегда относится к уровню отсчета (который я не хочу). Так что я делаю не так?

Я благодарен за любую помощь!

...