Я надеюсь, что этот вопрос отличается от предыдущих, но другими словами.Я пытался использовать решения для предыдущих вопросов, но они не помогли мне, так что терпите меня!
Так что у меня возникли некоторые проблемы с выводом моей модели линейной регрессии в R. Я обеспокоенчто модель использует неверную референтную группу как часть термина взаимодействия, который я поместил в модель, и хотя я пытался перераспределить отдельные термины до того, как они помещены в термин взаимодействия, я не получаювыходной я ожидал.
У меня есть набор данных с непрерывными и категориальными переменными.Допустим, что переменные A и B являются непрерывными, а переменные C, D и E являются категориальными (0 = Нет, 1 = Да).Группы референтов для категориальных переменных были установлены на «Нет» (0).Вот пример:
ID A B C D E
1 53.6 25 No Yes No
2 51.1 12 Yes No Yes
3 50.9 NA Yes Yes No
4 49.3 2 No No No
5 48.1 NA No Yes No
Я попробовал несколько разных способов получить условия взаимодействия, поэтому мои модели настроены следующим образом:
lm1 <- lm(A ~ C*D + E + B, data=example)
lm2 <- lm(A ~ C:D + E + B, data=example)
Я ожидал получить выходную таблицу со списком коэффициента регрессии, стандартной ошибки и т. Д. Для перехвата, только C, только D, E, B, а затем C * D, с разбивкой на 3 из 4 возможных комбинационных групп этого взаимодействиятермин минус комбинационная группа, которая включала обе референтные группы («Нет» для C и D, «C_No: D_No»).
ОЖИДАЕТСЯ:
Coefficient Estimate Std. Error t value Pr(>|t|)
Intercept 90.76369 0.54308 167.127 < 2e-16 ***
C_Yes -0.28639 0.62044 -0.462 0.644465
D_Yes -3.01242 1.14733 -2.626 0.008771 **
E_Yes 0.05865 0.01691 3.468 0.000544 ***
B -0.20891 0.35982 -0.581 0.561634
C_No:D_Yes -0.42116 0.47213 2.617 0.01674 *
C_Yes:D_Yes 2.01208 1.43154 1.406 0.160148
C_Yes:D_No -0.02877 0.65271 -0.345 0.672531
Для первой модели я получил выход для перехвата, только C, только D, E, B, а затем только одну комбинацию из C * D,
ACTUAL:
Coefficient Estimate Std. Error t value Pr(>|t|)
Intercept 90.76369 0.54308 167.127 < 2e-16 ***
C_Yes -0.28639 0.62044 -0.462 0.644465
D_Yes -3.01242 1.14733 -2.626 0.008771 **
E_Yes 0.05865 0.01691 3.468 0.000544 ***
B -0.20891 0.35982 -0.581 0.561634
C_No:D_Yes -0.42116 0.47213 2.617 0.01674 *
Для второй модели я получил выход для перехвата E, B, а затем все группы комбинаций C * D.
АКТУАЛЬНО:
Coefficient Estimate Std. Error t value Pr(>|t|)
Intercept 90.76369 0.54308 167.127 < 2e-16 ***
E_Yes 0.05865 0.01691 3.468 0.000544 ***
B -0.20891 0.35982 -0.581 0.561634
C_No:D_Yes -0.42116 0.47213 2.617 0.01674 *
C_Yes:D_Yes NA (all not defined because of singularities)
C_Yes:D_No -0.02877 0.65271 -0.345 0.672531
Итак, мои вопросы:
1) Есть ли другой код, который даст мне все, что я хочу, в одной модели вместо двух?
2) Эта модель, как есть, использует C_Yes: D_Yes в качестве референтной группы вместо C_No: D_No, и именно поэтому я получаю ошибку об особенностях?Мои переменные коррелированы, да, но не идеально, поэтому я не ожидал, что мультиколлинеарность будет проблемой.
3) Если референтная группа верна, почему я получаю оценку коэффициента для C_No: D_No (референтная группа)?