Каковы различия между прямым построением графика функции соответствия и построением прогнозируемых значений (они имеют одинаковую форму, но разные диапазоны)? - PullRequest
0 голосов
/ 02 февраля 2019

Я пытаюсь узнать gam() в R для логистической регрессии, используя сплайн на предикторе.Два метода построения графика в моем коде дают одинаковую форму, но разные диапазоны отклика в логит-масштабе, кажется, что в одном из них отсутствует перехват.Оба должны быть правильными, но, почему различия в диапазоне?

library(ISLR)
attach(Wage)
library(gam)

gam.lr = gam(I(wage >250) ~ s(age), family = binomial(link = "logit"), data = Wage)
agelims = range(age)
age.grid = seq(from = agelims[1], to = agelims[2])
pred=predict(gam.lr, newdata = list(age = age.grid), type = "link")
par(mfrow = c(2,1))
plot(gam.lr)
plot(age.grid, pred)

Я ожидал, что оба метода дадут точно такой же график.plot(gam.lr) отображает аддитивные эффекты каждого компонента, и так как здесь есть только один, поэтому он должен дать предсказанную функцию логита.Метод прогнозирования также дает мне оценки в масштабе ссылки.Но фактические выходы находятся в разных диапазонах.Минимальное значение первого метода равно -4, а второго - меньше -7.

1 Ответ

0 голосов
/ 02 февраля 2019

Первый график имеет только оценочную гладкую функцию s(age).Сглаживания подчиняются ограничениям идентифицируемости, так как в базовом расширении, используемом для параметризации сглаживания, есть функция или комбинация функций, которые полностью смешаны с перехватом.Таким образом, вы не можете подогнать сглаживание и пересечение в одной и той же модели, поскольку вы можете вычесть некоторое значение из перехвата и добавить его обратно к сглаживанию, и у вас будет такое же согласование, но разные коэффициенты.Поскольку вы можете складывать и вычитать бесконечность значений, у вас есть бесконечное количество моделей, что бесполезно.

Следовательно, ограничения на идентификацию применяются к базисным расширениям, и наиболее полезным является обеспечениечто гладкие суммы к нулю во всем диапазоне ковариат.Это включает в себя центрирование сглаживания в 0, при этом точка пересечения представляет общее среднее значение ответа.

Итак, первый график является гладким, с учетом этой суммы с нулевым ограничением, поэтому он находится на уровне 0.Перехват в этой модели:

> coef(gam.lr)[1]
(Intercept) 
    -4.7175 

Если вы добавите это к значениям на этом графике, вы получите значения на втором графике, который является применением полной модели к предоставленным вами данным, intercept +f (age).

Это все также происходит на шкале ссылок, на шкале логарифмов, отсюда и все отрицательные значения.

...