Та же интуиция применяется в случае, когда у вас есть несколько переменных предиктора. (Вы можете выполнить поиск по «многовариантной» или «множественной» регрессии, поскольку люди склонны не соглашаться с тем, когда использовать какой термин).
Краткая формулировка теории такова: вы хотите "частично" оценить влияние других предикторов на ответ, чтобы увидеть влияние просто предиктора интереса. Чтобы сделать это, вы должны сначала изолировать эффект любых предикторов, кроме того, который вы выбрали (естественно, с помощью регрессии), а затем получить остатки. Но так как вам необходимо понять влияние всех других предикторов на интересующий вас, вы должны выполнить регрессию интересующей переменной по отношению ко всем остальным, получив второй набор остатков. Отражение их друг против друга показывает некоторую информацию о возможной (не) линейности отношений между вашим ответом и вашей переменной интереса.
Конкретнее, рассмотрим уравнение регрессии с двумя предикторами и перехватом:
y = x_0 + x_1*B_1 + x_2*B_2 + u
Скажем, мы хотим получить частичные невязки для x_1
. Сначала регресс y
на x_0
и x_2
. Это даст вам подогнанный y
, который не включает x_1
, очевидно. Это дает вам часть y
, которая не предсказывается x_1
; давайте назовем это y^
. Теперь вам нужно получить остатки от этой регрессии: y* = y - y^
.
Но тогда вам нужно будет оценить влияние других предикторов на интересующий вас. В этом случае вам нужно регрессировать x_1
на x_0
и x_2
. Это количество x_1
, которое предсказывается другими переменными; Назовите это x_1^
. Подобно остаткам ответа, получите x_1* = x_1 - x_1^
.
Теперь просто нанесите y*
против x_1*
, чтобы увидеть взаимосвязь.
Эта страница может быть хорошим справочным материалом для вас.
В python пакет statsmodels
имеет функцию plot_ccpr
, которая будет отображать частичные остатки вместе со встроенной линией. Полное описание здесь .