Я хочу проверить мотивы голосования избирателей за ту или иную партию «XY» и то, имеет ли существенное значение проживание в регионе.Вопрос в том, значительно ли отличаются избиратели в регионе A (кодированный «1») по мотивам от избирателей в регионе B (кодированный «0»).
Вот как структурированы мои данные (упрощенно):
region_AB motive voter_attribute vote_for_party_XY
1 1 1 1
1 0 1 1
1 1 0 0
0 0 0 0
0 0 1 0
0 1 0 0
Я думаю, что мне нужно запустить двоичную логистическую иерархическую модель в R, но тогда как я узнаю, играют ли различные мотивы и характеристики избирателей роль граждан в регионе A и B?Я не просто хочу проверять региональные эффекты, но и различия между областями в рамках общей модели.
Или я могу просто бросить термины взаимодействия в стандартную модель логистической регрессии (например, region*motive1
, region*motive2
...)?
Но в таком случае, сколько терминов взаимодействия я могу добавить?Должен ли я перекодировать нули в 'region' во что-то вроде 0.0000000001
, так как умножение на ноль исказит результаты?Наконец, должен ли я добавить элементы взаимодействия в модель вместе с двумя компонентами этого элемента взаимодействия (например, region
, motive
и region*motive
) или это приведет только к мультиколлинеарности?
Спасибо!