Остаточный график как метод, чтобы проверить, применима ли линейная модель для множественной линейной регрессии - PullRequest
0 голосов
/ 02 февраля 2020

Для простой регрессионной модели мы можем использовать графики невязок, чтобы проверить, подходит ли линейная модель для установления sh взаимосвязи между нашим предиктором и нашим откликом (проверяя, случайно ли распределены остатки).

Однако существует ли подобный метод проверки применимости линейной регрессии, когда у нас есть несколько предикторов и один ответ (т. Е. Для модели множественной линейной регрессии)?

1 Ответ

1 голос
/ 03 февраля 2020

Та же интуиция применяется в случае, когда у вас есть несколько переменных предиктора. (Вы можете выполнить поиск по «многовариантной» или «множественной» регрессии, поскольку люди склонны не соглашаться с тем, когда использовать какой термин).

Краткая формулировка теории такова: вы хотите "частично" оценить влияние других предикторов на ответ, чтобы увидеть влияние просто предиктора интереса. Чтобы сделать это, вы должны сначала изолировать эффект любых предикторов, кроме того, который вы выбрали (естественно, с помощью регрессии), а затем получить остатки. Но так как вам необходимо понять влияние всех других предикторов на интересующий вас, вы должны выполнить регрессию интересующей переменной по отношению ко всем остальным, получив второй набор остатков. Отражение их друг против друга показывает некоторую информацию о возможной (не) линейности отношений между вашим ответом и вашей переменной интереса.

Конкретнее, рассмотрим уравнение регрессии с двумя предикторами и перехватом:

y = x_0 + x_1*B_1 + x_2*B_2 + u

Скажем, мы хотим получить частичные невязки для x_1. Сначала регресс y на x_0 и x_2. Это даст вам подогнанный y, который не включает x_1, очевидно. Это дает вам часть y, которая не предсказывается x_1; давайте назовем это y^. Теперь вам нужно получить остатки от этой регрессии: y* = y - y^.

Но тогда вам нужно будет оценить влияние других предикторов на интересующий вас. В этом случае вам нужно регрессировать x_1 на x_0 и x_2. Это количество x_1, которое предсказывается другими переменными; Назовите это x_1^. Подобно остаткам ответа, получите x_1* = x_1 - x_1^.

Теперь просто нанесите y* против x_1*, чтобы увидеть взаимосвязь.

Эта страница может быть хорошим справочным материалом для вас.

В python пакет statsmodels имеет функцию plot_ccpr, которая будет отображать частичные остатки вместе со встроенной линией. Полное описание здесь .

...