Почему нормальность считается важным допущением для зависимых и независимых переменных? - PullRequest
1 голос
/ 26 июня 2019

Проходя через одно ядро ​​на Kaggle в отношении регрессии, в котором упоминалось, что данные должны выглядеть как нормальное распределение.Но я не понимаю, почему?Я знаю, что этот вопрос может быть очень простым, но, пожалуйста, помогите мне понять эту концепцию.

Заранее спасибо !!

1 Ответ

2 голосов
/ 27 июня 2019

Модели регрессии делают ряд допущений, одним из которых является нормальность. Если это предположение нарушается, тогда ваши p-значения и доверительные интервалы вокруг вашей оценки коэффициента могут быть неверными, что приведет к неверным выводам о статистической значимости ваших предикторов

Однако распространенным заблуждением является то, что данные (то есть переменные / предикторы) должны быть нормально распределены, но это не так. Эти модели не делают никаких предположений о распределении предикторов.

Например, представьте себе случай, когда у вас есть двоичный предиктор в регрессии (Мужской / Женский; Медленный / Быстрый и т. Д.) - было бы невозможно нормально распределить эту переменную, и все же она все еще является допустимым предиктором для использования. в регрессионной модели. Предположение нормальности фактически относится к распределению невязок, а не к самим предикторам

...