Когда несколько моделей передаются в качестве аргументов функции anova()
, она сравнивает модели со второй по n-ю с первой или «базовой» моделью с точки зрения уменьшения отклонения.
Например, мы подберем три обобщенные линейные модели, используя базу данных Motor Trend Cars mtcars
, и сравним их с функцией anova()
.
m1 <- glm(am ~ mpg ,data = mtcars,family="binomial")
m2 <- glm(am ~ mpg + wt, data = mtcars,family="binomial")
m3 <- glm(am ~ mpg + wt + disp, data = mtcars,family="binomial")
anova(m1,m2,m3,test="Chisq")
> anova(m1,m2,m3,test="Chisq")
Analysis of Deviance Table
Model 1: am ~ mpg
Model 2: am ~ mpg + wt
Model 3: am ~ mpg + wt + disp
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 30 29.675
2 29 17.184 1 12.4909 0.0004089 ***
3 28 16.858 1 0.3266 0.5676480
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
В столбце Resid. Df
указано количество степеней свободы, оставшихся после учета независимых переменных в модели, каждая из которых использует определенную степень свободы. Столбец Resid. Dev
содержит остаточное отклонение или отклонение, оставленное необъясненным моделью. Столбец Df
показывает дополнительные степени свободы, используемые моделью относительно моделей над ней в списке. Столбец Deviance
показывает возрастающее отклонение, объясненное этой моделью, относительно моделей над ней в списке. Pr.(>Chi)
дает вероятность того, что модель в данном ряду объясняет значительно большее отклонение, чем строка над ним.
Для нашего примера анализа базовая модель использует мили на галлон, чтобы предсказать, есть ли у автомобиля автомат c или механическая коробка передач am
. Добавление веса автомобиля wt
к модели значительно улучшает объяснительную способность модели по сравнению с базовой моделью с mpg
(миль на галлон). Добавление смещения автомобиля disp
к модели не добавляет значительную объяснительную силу модели, потому что тест Хи-квадрат не является значимым на уровне 0,05.
Как рассчитывается отклонение?
Отклонение рассчитывается как разница логарифмических правдоподобий между подобранной моделью и насыщенной моделью (т. Е. Моделью, которая идеально соответствует данным). Обратите внимание, что отклонение является обобщением концепции остаточной суммы квадратов в линейной модели. Эдуардо Гарсиа Португьюс (Eduardo Garcia Portugués) хорошо описывает подробности математики в своей онлайн-книге Заметки по прогнозному моделированию .