Я пытаюсь зафиксировать значимость или доминирование темы в документе.Мера значимости - это количество слов по этой теме.Тем не менее, я должен контролировать тот факт, что каждый документ имеет разное количество слов.(TOTAL_WORDS, среднее значение = 2444 слова, sd = 1379 слов, минимум = 561, максимум = 8,342 слова, диапазон = 7,781 слов).Если я использую отрицательную биномиальную модель (glm.nb), должно ли Total_Words быть смещением или весом?Во-вторых, если я использую Total_Words в качестве смещения, будет ли это журнал смещения, как в регрессии Пуассона?
Я пробовал запускать модели со смещением или весом, и полученные результаты сильно отличаютсяс моими коэффициентами, являющимися статистически значимыми, только когда я использую веса.Я посмотрел на документацию по этому пакету, и там сказано, что «Для биномиального GLM предыдущие веса используются для определения количества испытаний, когда ответом является доля успеха».Означает ли это, что веса будут приемлемым использованием в моем случае?
Код смещения
summary(m1 <- glm.nb(Problem_Demand ~ HEALTH_CJ + offset(log(`TOTAL WORDS`))))
Код с весами
summary(m2 <- glm.nb(Problem_Demand ~ HEALTH_CJ, weights=Dissertation_Dataset$`TOTAL WORDS`))
РЕЗУЛЬТАТЫ СМЕЩЕНИЯ:
Call:
glm.nb(formula = Problem_Demand ~ HEALTH_CJ +
offset(log(`TOTAL WORDS`)), init.theta = 0.1490825725,
link = log)
Остатки отклонения:
Min 1Q Median 3Q Max
-1.55538 -1.41229 -0.45314 0.00276 1.87925
Коэффициенты:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.5384 0.2897 -8.762 <2e-16
HEALTH_CJLaw Enforcement -0.6883 0.4796 -1.435 0.151
HEALTH_CJOther 0.3187 0.6031 0.529 0.597
(Dispersion parameter for Negative Binomial(0.1491) family taken to be 1)
Null deviance: 154.04 on 149 degrees of freedom
Residual deviance: 151.23 on 147 degrees of freedom
AIC: 1400
Number of Fisher Scoring iterations: 1
Theta: 0.1491
Std. Err.: 0.0183
2 x log-likelihood: -1391.9620
РЕЗУЛЬТАТЫ ВЕСА:
Call:
glm.nb(formula = Problem_Demand ~ HEALTH_CJ,
weights = `TOTAL WORDS`, init.theta = 0.1458893113,
link = log)
Deviance Residuals:
Min 1Q Median 3Q Max
-121.467 -62.381 -21.260 -3.179 108.458
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 5.297791 0.005737 923.48 <2e-16
HEALTH_CJLaw Enforcement -1.163340 0.009350 -124.42 <2e-16
HEALTH_CJOther 0.529726 0.014012 37.81 <2e-16
(Dispersion parameter for Negative Binomial(0.1459) family taken to be 1)
Null deviance: 391806 on 149 degrees of freedom
Residual deviance: 373685 on 147 degrees of freedom
AIC: 3483728
Number of Fisher Scoring iterations: 1
Theta: 0.145889
Std. Err.: 0.000362
2 x log-likelihood: -3483720.172000