Проблема здесь в том, что при проверке парных корреляций Пирсона вы не учитываете влияние всех других переменных.Таким образом, вы не можете ожидать прямой связи между корреляцией Пирсона с целью и значением p в регрессионной модели.
Вот крайний пример, иллюстрирующий это:
Скажем, у нас есть цель c
, которая определяется суммой двух признаков a+b
.Скажем, у вас есть следующий тренировочный набор:
a = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
b = [4, 3, 2, 1, 0, 6, 5, 4, 3, 2]
c = [5, 5, 5, 5, 5, 7, 7, 7, 7, 7]
Обратите внимание, что, хотя a+b
отлично дает вам c
, если вы просто проверите соотношение между a
и c
, вы быесть 0!
numpy.corrcoef(a, c)
> array([[1., 0.],
[0., 1.]])
Но если вы включите эти данные в оценку линейной регрессии, вы, конечно, получите чрезвычайно малое значение p для a
.
Итак, как видите, небольшая попарная корреляция с целью не обязательно означает отсутствие эффекта / маленькое значение p.