та же регрессия, другая статистика (R v. SAS)? - PullRequest
4 голосов
/ 16 сентября 2010

Я выполнил одну и ту же пробитную регрессию в SAS и R, и хотя мои оценки коэффициентов (по существу) эквивалентны, сообщаемая статистика тестов отличается. В частности, SAS сообщает статистику теста как t-статистику, тогда как R сообщает статистику теста как z-статистику.

Я проверил свой эконометрический текст и обнаружил (с небольшими уточнениями), что он сообщает о пробитных результатах в терминах t-статистики.

Какая статистика подходит? И почему R отличается от SAS?

Вот мой код SAS:

proc qlim data=DavesData;
 model y = x1 x2 x3/ discrete(d=probit);
run;
quit;

А вот мой код R:

> model.1 <- glm(y ~ x1 + x2 + x3, family=binomial(link="probit"))
> summary(model.1)

1 Ответ

6 голосов
/ 16 сентября 2010

Просто, чтобы ответить немного - это серьезно не по теме, вопрос должен быть закрыт на самом деле - но ни t-статистика, ни z-статистика не имеют смысла. Они оба связаны между собой, поскольку Z - это просто стандартное нормальное распределение, а T - адаптированное распределение, близкое к нормальному, которое учитывает тот факт, что ваша выборка ограничена n случаями.

Теперь и статистика z, и статистика t обеспечивают значимость для нулевой гипотезы о том, что соответствующий коэффициент равен нулю. Стандартная ошибка на коэффициентах, используемых для этого теста, основана на остаточной ошибке. Используя функцию связи, вы практически трансформируете свой ответ таким образом, что остатки снова становятся нормальными, тогда как на самом деле остатки представляют собой разницу между наблюдаемой и расчетной пропорциями. Из-за этого преобразования вычисление степеней свободы для T-статистики больше не является полезным, и, следовательно, R принимает стандартное нормальное распределение для тестовой статистики.

Оба результата полностью эквивалентны, R просто даст немного более резкие p-значения. Это спорный вопрос, но если вы посмотрите на тесты разности пропорций, они также всегда проводятся с использованием стандартного нормального приближения (Z-тест).

Что возвращает меня к тому, что ни одно из этих значений на самом деле не имеет никакого значения. Если вы хотите узнать, имеет ли переменная значительный вклад с p-значением, которое на самом деле что-то говорит, вы используете критерий хи-квадрат, такой как критерий отношения правдоподобия (LR), критерий оценки или тест Вальда. R просто дает вам стандартное отношение правдоподобия, SAS также дает вам два других. Но все три теста по существу эквивалентны, если они серьезно отличаются, пришло время еще раз взглянуть на ваши данные.

например, в R:

anova(model.1,test="Chisq")

Для SAS: см. Примеры здесь для использования контрастов, получения теста LR, Score или Wald

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...