Как я могу использовать ступенчатую регрессию для удаления определенного коэффициента в логистической регрессии в R? - PullRequest
0 голосов
/ 16 ноября 2018

Когда я запускаю логистическую регрессию для набора данных автомобилей:

carlogistic.fit4 <- glm(as.factor(Mpg01) ~ Weight+Year+Origin, data=carslogic, family="binomial")
summary(carlogistic.fit4)

Я получаю следующий вывод: Вызов: glm (формула = as.factor (Mpg01) ~ Вес + Год + Происхождение, семейство = "Бином", данные = карлогические)

Остатки отклонения: Мин 1Q Медиана 3Q Макс
-2.29189 -0.10014 -0.00078 0.19699 2.60606

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -2.697e+01  5.226e+00  -5.161 2.45e-07 ***
Weight         -6.006e-03  7.763e-04  -7.737 1.02e-14 ***
Year            5.677e-01  8.440e-02   6.726 1.75e-11 ***
OriginGerman    1.256e+00  5.172e-01   2.428   0.0152 *  
OriginJapanese  3.250e-01  5.462e-01   0.595   0.5519    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 549.79  on 396  degrees of freedom
Residual deviance: 151.06  on 392  degrees of freedom
AIC: 161.06

Однако, если вы заметите, что значение p для автомобилей японского происхождения превышает 0,05 и, следовательно, является незначительным. Я хочу удалить это из модели, однако заголовок столбца - это Origin, как вы видите в исходном коде. Как исключить японское происхождение именно из модели?

Ответы [ 3 ]

0 голосов
/ 16 ноября 2018

Глядя на функцию логистической регрессии, я бы предположил, что Origin является фиктивной переменной? Если это так, просто удаление OriginJapanese не будет работать в этом случае. Вам нужно будет удалить «Происхождение» все вместе и повторно запустить модель и сравнить AIC и значение веса и года в новой модели.

Просто пример, если у нас есть фиктивная переменная для пола (мужской, женский) и женская фиктивная переменная кажется незначительной, то удаление фиктивной переменной для женского означает, что вы меняете выборку и смотрите только на мужскую популяцию.

0 голосов
/ 16 ноября 2018

Одной из возможностей является , чтобы попытаться рассмотреть пошаговое выделение с помощью каретки .Другой возможный подход - перекрестная проверка, т. Е. LAR / LASSO приближается.

0 голосов
/ 16 ноября 2018

OriginJapanese имеет значение, поскольку оно имеет прямое отношение к OriginGerman, что имеет значение.Вы должны думать о значении с точки зрения переменной Origin, а не с точки зрения ее отдельных уровней.Если какой-либо из его уровней оказывает существенное влияние, переменная может считаться значимой.

Если вы хотите удалить эффект OriginJapanese, вам придется либо полностью удалить Origin, либо поменять японские автомобили надругая группа (которая будет смешана с другими не немецкими автомобилями).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...