Модели с фиксированным эффектом Logit в «bife»: как пакет обрабатывает юниты с небольшим количеством наблюдений? - PullRequest
0 голосов
/ 18 апреля 2019

Я пытаюсь оценить модель logit с фиксированными эффектами для брендов, использующих пакет bife. Однако в моем наборе данных также есть бренды без дисперсии (то есть только одно или очень мало наблюдений). В моем понимании фиксированные эффекты не имеют смысла для единиц, которые имеют только одно или очень мало наблюдений.

Это мой вопрос: как биф поступает с юнитами с очень небольшим или одним наблюдением? Они просто игнорируются? Могу ли я получить информацию, сколько дел было проигнорировано? Сколько дел требуется, чтобы их можно было рассмотреть в регрессии?

В частности, у меня есть набор данных, в котором я выясняю, был ли телезритель отключен во время определенного рекламного ролика. Зависимая переменная является двоичной, указывая zap или не zap. Мой набор данных включает в себя ок. 1700 телевизионных рекламных роликов ~ 300 брендов. Однако некоторые бренды встречаются в моем наборе данных только один или два раза, а другие встречаются несколько раз.

Чтобы понять, я запустил две модели: одну на полном наборе данных и одну на наборе данных, в котором я удалил все наблюдения для брендов, которые встречались только один раз. Результаты должны быть точно такими же, если игнорируются единицы с одним наблюдением. Действительно, результаты очень похожи, но не полностью одинаковы.

Код для полного набора данных "df":

bife1_v3 <- bife(zap ~ entertaining + emotion + humor + information + 
                   brand_presence + brand_timing
                 + ad_position + spot_length + n_zaps_before 
                 + motiv_code_exposure_overall + brand_exposure_day + category_exposure_ad_break | brand_id,
                 data = df)

Код для сокращенного набора данных "df2":

df2 <- df[which(df$airings_per_brand > 1), ]
bife1_v4 <- bife(zap ~ entertaining + emotion + humor + information + 
                   brand_presence + brand_timing
                 + ad_position + spot_length + n_zaps_before 
                 + motiv_code_exposure_overall + brand_exposure_day + category_exposure_ad_break | brand_id,
                 data = df2)

Это результаты двух моделей:

> summary(bife1_v3)
Log-Likelihood= -29136.69 
n= 470909, number of events= 5970
Demeaning converged after 6 iteration(s)
Offset converged after 5 iteration(s)

Corrected structural parameter(s):

                             Estimate Std. error t-value  Pr(> t)    
entertaining                -0.090803   0.037993  -2.390  0.01685 *  
emotion                     -0.069311   0.034810  -1.991  0.04647 *  
humor                       -0.007942   0.024632  -0.322  0.74714    
information                  0.001840   0.032335   0.057  0.95463    
brand_presence               0.082123   0.032528   2.525  0.01158 *  
brand_timing                -0.074055   0.025863  -2.863  0.00419 ** 
ad_position                 -0.023695   0.003115  -7.606 2.84e-14 ***
spot_length                  0.035574   0.003832   9.283  < 2e-16 ***
n_zaps_before                0.246529   0.004155  59.337  < 2e-16 ***
motiv_code_exposure_overall -0.202511   0.016135 -12.551  < 2e-16 ***
brand_exposure_day          -0.196333   0.035130  -5.589 2.29e-08 ***
category_exposure_ad_break  -0.666326   0.045204 -14.741  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
AIC=  58913.39 , BIC=  62453.36 
Average individual fixed effects= -4.0151



> summary(bife1_v4)
Log-Likelihood= -27222.75 
n= 433678, number of events= 5562
Demeaning converged after 6 iteration(s)
Offset converged after 6 iteration(s)

Corrected structural parameter(s):

                             Estimate Std. error t-value  Pr(> t)    
entertaining                -0.090204   0.038086  -2.368  0.01787 *  
emotion                     -0.069082   0.034890  -1.980  0.04770 *  
humor                       -0.007835   0.024669  -0.318  0.75078    
information                  0.001525   0.032441   0.047  0.96250    
brand_presence               0.081841   0.032589   2.511  0.01203 *  
brand_timing                -0.074087   0.025893  -2.861  0.00422 ** 
ad_position                 -0.023987   0.003128  -7.668 1.75e-14 ***
spot_length                  0.035542   0.003838   9.260  < 2e-16 ***
n_zaps_before                0.244002   0.004285  56.945  < 2e-16 ***
motiv_code_exposure_overall -0.202554   0.016200 -12.504  < 2e-16 ***
brand_exposure_day          -0.199448   0.035252  -5.658 1.53e-08 ***
category_exposure_ad_break  -0.647016   0.045494 -14.222  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
AIC=  54871.49 , BIC=  57210.24 
Average individual fixed effects= -3.9932

Почему я вижу эти различия?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...