Для анализа двоичной переменной (значения которой будут ИСТИНА / ЛОЖЬ, 0/1 или ДА / НЕТ) в соответствии с количественной пояснительной переменной, можно использовать логистическую регрессию.
Рассмотрим, например,следующие данные, где x - это возраст 40 человек, а y - переменная, указывающая, купили ли они альбом дэт-метала за последние 5 лет (1, если «да», 0, если «нет»).Вероятно, чем старше люди, тем меньше они покупают дэт-метал.
Логистическая регрессия является частным случаем Обобщенной линейной модели (GLM).В классической модели линейной регрессии мы рассмотрим следующую модель:
Y = αX + β
Следовательно, ожидание Y прогнозируется следующим образом:
E (Y)= αX + β
Здесь из-за бинарного распределения Y вышеприведенные соотношения неприменимы.Поэтому для «обобщения» линейной модели мы считаем, что
g (E (Y)) = αX + β
, где g - функция связи.В этом случае для логистической регрессии функция связи соответствует функции logit:
logit (p) = log (p / (1-p))
Обратите внимание, что эта функция logitпреобразует значение (p) от 0 до 1 (например, вероятность) в значение от - ∞ до + ∞.Вот как выполнить логистическую регрессию в R:
myreg=glm(y~x, family=binomial(link=logit))
summary(myreg)
glm(formula = y ~ x, family = binomial(link = logit))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.8686 -0.7764 0.3801 0.8814 2.0253
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 5.9462 1.9599 3.034 0.00241 **
## x -0.1156 0.0397 -2.912 0.00360 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 52.925 on 39 degrees of freedom
## Residual deviance: 39.617 on 38 degrees of freedom
## AIC: 43.617
##
## Number of Fisher Scoring iterations: 5
. Получим следующую модель:
logit (E (Y)) = - 0,12X + 5,95
и мы отмечаем, что (отрицательное) влияние возраста на покупку альбомов дэт-метала значимо на уровне 5% (p (> [Z | ----> <5%). </p>
Таким образом,логистическая регрессия часто используется для выявления факторов риска (таких как возраст, а также ИМТ, пол и т. д.)