В чем разница между смещением и весом в пакете GLM.NB в R? - PullRequest
0 голосов
/ 26 декабря 2018

Я пытаюсь зафиксировать значимость или доминирование темы в документе.Мера значимости - это количество слов по этой теме.Тем не менее, я должен контролировать тот факт, что каждый документ имеет разное количество слов.(TOTAL_WORDS, среднее значение = 2444 слова, sd = 1379 слов, минимум = 561, максимум = 8,342 слова, диапазон = 7,781 слов).Если я использую отрицательную биномиальную модель (glm.nb), должно ли Total_Words быть смещением или весом?Во-вторых, если я использую Total_Words в качестве смещения, будет ли это журнал смещения, как в регрессии Пуассона?

Я пробовал запускать модели со смещением или весом, и полученные результаты сильно отличаютсяс моими коэффициентами, являющимися статистически значимыми, только когда я использую веса.Я посмотрел на документацию по этому пакету, и там сказано, что «Для биномиального GLM предыдущие веса используются для определения количества испытаний, когда ответом является доля успеха».Означает ли это, что веса будут приемлемым использованием в моем случае?

Код смещения

summary(m1 <- glm.nb(Problem_Demand ~  HEALTH_CJ + offset(log(`TOTAL WORDS`))))

Код с весами

summary(m2 <- glm.nb(Problem_Demand ~  HEALTH_CJ, weights=Dissertation_Dataset$`TOTAL WORDS`))
РЕЗУЛЬТАТЫ СМЕЩЕНИЯ:
Call:
glm.nb(formula = Problem_Demand ~ HEALTH_CJ + 
    offset(log(`TOTAL WORDS`)), init.theta = 0.1490825725, 
    link = log)

Остатки отклонения:

    Min        1Q    Median        3Q       Max  
-1.55538  -1.41229  -0.45314   0.00276   1.87925  

Коэффициенты:

                                              Estimate Std. Error z value Pr(>|z|)    
(Intercept)                              -2.5384     0.2897  -8.762   <2e-16 

HEALTH_CJLaw Enforcement                  -0.6883     0.4796  -1.435    0.151    

HEALTH_CJOther                             0.3187     0.6031   0.529    0.597    

(Dispersion parameter for Negative Binomial(0.1491) family taken to be 1)

    Null deviance: 154.04  on 149  degrees of freedom
Residual deviance: 151.23  on 147  degrees of freedom
AIC: 1400

Number of Fisher Scoring iterations: 1


              Theta:  0.1491 
          Std. Err.:  0.0183 

 2 x log-likelihood:  -1391.9620 
РЕЗУЛЬТАТЫ ВЕСА:
Call:
glm.nb(formula = Problem_Demand ~ HEALTH_CJ, 
    weights = `TOTAL WORDS`, init.theta = 0.1458893113, 
    link = log)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-121.467   -62.381   -21.260    -3.179   108.458  

Coefficients:
                                               Estimate Std. Error z value Pr(>|z|)    
(Intercept)                          5.297791   0.005737  923.48   <2e-16

 HEALTH_CJLaw Enforcement            -1.163340   0.009350 -124.42   <2e-16 

HEALTH_CJOther                       0.529726   0.014012   37.81   <2e-16 


(Dispersion parameter for Negative Binomial(0.1459) family taken to be 1)

    Null deviance: 391806  on 149  degrees of freedom
Residual deviance: 373685  on 147  degrees of freedom
AIC: 3483728

Number of Fisher Scoring iterations: 1


              Theta:  0.145889 
          Std. Err.:  0.000362 

 2 x log-likelihood:  -3483720.172000 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...