Тестирование региональных эффектов взаимодействия с использованием иерархической модели в R - PullRequest
0 голосов
/ 04 июня 2018

Я хочу проверить мотивы голосования избирателей за ту или иную партию «XY» и то, имеет ли существенное значение проживание в регионе.Вопрос в том, значительно ли отличаются избиратели в регионе A (кодированный «1») по мотивам от избирателей в регионе B (кодированный «0»).

Вот как структурированы мои данные (упрощенно):

region_AB   motive   voter_attribute  vote_for_party_XY
1           1        1                1
1           0        1                1
1           1        0                0
0           0        0                0
0           0        1                0
0           1        0                0

Я думаю, что мне нужно запустить двоичную логистическую иерархическую модель в R, но тогда как я узнаю, играют ли различные мотивы и характеристики избирателей роль граждан в регионе A и B?Я не просто хочу проверять региональные эффекты, но и различия между областями в рамках общей модели.

Или я могу просто бросить термины взаимодействия в стандартную модель логистической регрессии (например, region*motive1, region*motive2...)?

Но в таком случае, сколько терминов взаимодействия я могу добавить?Должен ли я перекодировать нули в 'region' во что-то вроде 0.0000000001, так как умножение на ноль исказит результаты?Наконец, должен ли я добавить элементы взаимодействия в модель вместе с двумя компонентами этого элемента взаимодействия (например, region, motive и region*motive) или это приведет только к мультиколлинеарности?

Спасибо!

1 Ответ

0 голосов
/ 05 июня 2018

Результат является двоичным, поэтому естественной основой моделирования будет логистическая регрессия.Я не вижу иерархической структуры для сбора данных, поэтому просто рекомендую использовать термин взаимодействия, сформированный между регионом и мотивацией, с помощью * -оператора.

 glm( vote_for_party_XY ~ region_AB * motive +  voter_attribute, family = "binomial")

Обратите внимание, что интерфейс формулы R включает в себя обаТермины «основной эффект» при использовании оператора «*».Вы получаете тот же эффект с:

 region_AB + motive + region_AB : motive 

Будет (как минимум) три коэффициента, описывающих результаты мотивации региона: один для одного региона (применимо к лицам в регионе == 1 и мотивации = 0)вторая - только для мотивации (применима к лицам в регионе 0 и мотивации = 1) и третья (для лиц с регионом = 1 и мотивацией = 1).Все оценки будут относиться к термину перехвата, который применяется к лицам со всеми факторами на 0- (контрольном) уровне.Чтобы рассчитать количество голосов для лиц с регионами = 1 и регионами = 1, вы добавляете коэффициенты для перехвата, региона = 1 и коэффициента взаимодействия.Если имеется более двух уровней «регион» (скажем, n) и «мотивация» (скажем, m), то число коэффициентов будет 1 +(n-1) +(m-1)+(n-1)*(m-1), что, я думаю, составит n*m (включая «Перехват»).

...