Я заметил, что в функции glm()
порядок факторов может изменить результаты, но я не понимаю, почему:
mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv") #example
mydata$rank <- factor(mydata$rank)
# gpa was at the 2nd place
my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
anova(my.mod, test="Chisq")$"Pr(>Chi)"
[1] NA 1.907193e-04 1.684783e-02 7.088456e-05
# here, rank was at the 2nd place
my.mod <- glm(admit ~ gre + rank + gpa, data = mydata, family = "binomial")
anova(my.mod, test="Chisq")$"Pr(>Chi)"
[1] NA 1.907193e-04 8.191817e-05 1.419044e-02
Обычно связывает логистическую регрессию (glm) с anova / chi2позволяет искать факторы, которые больше всего влияют на набор данных, в то же время взвешивая другие (факторы), не так ли?