Я использую модель линейной регрессии в R с несколькими ковариатами - некоторые являются непрерывными, другие являются двоичными или категориальными:
y - результат, непрерывный
X - категориальный
Пол - двоичный, 1, если мужчина, 0, если женщина
lm.model.1<-lm('y~factor(X)+Age+strata(Sex)',data=df)
lm.model.2<-lm('y~factor(X)+Age+factor(Sex)',data=df)
Из того, что я вижу, нет никаких различий с точки зрения результатов вычислений:
require(lmtest)
lrtest(lm.model.1,lm..model.2)
#Df LogLik Df Chisq Pr(>Chisq)
1 16 -1227650
2 16 -1227650 0 0 1
Коэффициенты также одинаковы:
lm.model.1:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.229324 0.332187 172.280 < 2e-16 ***
factor(X)0 0.368701 0.071474 5.159 2.49e-07 ***
factor(X)2 -0.957739 0.209016 -4.582 4.60e-06 ***
factor(X)3 -0.116026 0.254374 -0.456 0.648
factor(X)4 -2.233514 1.047754 -2.132 0.033 *
Age 0.884269 0.004232 208.963 < 2e-16 ***
strata(Sex)Sex=1 4.557601 0.074029 61.565 < 2e-16 ***
lm.model.2:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.229324 0.332187 172.280 < 2e-16 ***
factor(X)0 0.368701 0.071474 5.159 2.49e-07 ***
factor(X)2 -0.957739 0.209016 -4.582 4.60e-06 ***
factor(X)3 -0.116026 0.254374 -0.456 0.648
factor(X)4 -2.233514 1.047754 -2.132 0.033 *
Age 0.884269 0.004232 208.963 < 2e-16 ***
factor(Sex)1 4.557601 0.074029 61.565 < 2e-16 ***
Так что же на самом делеразница между использованием factor () и strata () концептуально?