Почему использование «mgcv :: s» в «gam (y ~ mgcv :: s ...)» приводит к ошибке? - PullRequest
0 голосов
/ 27 июня 2018

Я хотел быть ясным и использовать обозначение :: в строках для подгонки mgcv::gam. Я наткнулся на одну вещь, когда использовал обозначение в вызове модели для mgcv::s. Код с воспроизводимым примером / ошибкой показан ниже.

Причина, вероятно, в том, что я использую это обозначение в формуле модели, но я не могу понять, почему это не работает / не разрешено. Вероятно, это что-то довольно специфическое в отношении синтаксиса (возможно, не в отношении mgcv), но, возможно, кто-то может помочь мне понять это и мое понимание R. Заранее спасибо.

library(mgcv)
dat <- data.frame(x = 1:10, y = 101:110)
# this results in an error: invalid type (list)...
mgcv::gam(y ~ mgcv::s(x, bs = "cs", k = -1), data = dat)
# after removing the mgcv:: in front of s everything works fine
mgcv::gam(y ~ s(x, bs = "cs", k = -1), data = dat)

# outside of the model call, both calls return the desired function
class(s)
# [1] "function"
class(mgcv::s)
# [1] "function"

Ответы [ 2 ]

0 голосов
/ 03 июля 2018

Объяснение

library(mgcv)
#Loading required package: nlme
#This is mgcv 1.8-24. For overview type 'help("mgcv-package")'.

f1 <- ~ s(x, bs = 'cr', k = -1)
f2 <- ~ mgcv::s(x, bs = 'cr', k = -1)

OK <- mgcv:::interpret.gam0(f1)$smooth.spec
FAIL <- mgcv:::interpret.gam0(f2)$smooth.spec

str(OK)
# $ :List of 10
#  ..$ term   : chr "x"
#  ..$ bs.dim : num -1
#  ..$ fixed  : logi FALSE
#  ..$ dim    : int 1
#  ..$ p.order: logi NA
#  ..$ by     : chr "NA"
#  ..$ label  : chr "s(x)"
#  ..$ xt     : NULL
#  ..$ id     : NULL
#  ..$ sp     : NULL
#  ..- attr(*, "class")= chr "cr.smooth.spec"

str(FAIL)
# list()

4-я строка исходного кода interpret.gam0 раскрывает проблему:

head(mgcv:::interpret.gam0)

1 function (gf, textra = NULL, extra.special = NULL)              
2 {                                                               
3     p.env <- environment(gf)                                    
4     tf <- terms.formula(gf, specials = c("s", "te", "ti", "t2", 
5         extra.special))                                         
6     terms <- attr(tf, "term.labels") 

Поскольку "mgcv::s" не должно совпадать, вы получаете проблему. Но mgcv позволяет вам обойти эту проблему, передав "mgcv::s" через аргумент extra.special:

FIX <- mgcv:::interpret.gam0(f, extra.special = "mgcv::s")$smooth.spec
all.equal(FIX, OK)
# [1] TRUE

Просто это не контролируется пользователем при выполнении процедуры высокого уровня:

head(mgcv::gam, n = 10)

#1  function (formula, family = gaussian(), data = list(), weights = NULL, 
#2      subset = NULL, na.action, offset = NULL, method = "GCV.Cp",        
#3      optimizer = c("outer", "newton"), control = list(), scale = 0,     
#4      select = FALSE, knots = NULL, sp = NULL, min.sp = NULL, H = NULL,  
#5      gamma = 1, fit = TRUE, paraPen = NULL, G = NULL, in.out = NULL,    
#6      drop.unused.levels = TRUE, drop.intercept = NULL, ...)             
#7  {                                                                      
#8      control <- do.call("gam.control", control)                         
#9      if (is.null(G)) {                                                  
#10         gp <- interpret.gam(formula)  ## <- default to extra.special = NULL

Я согласен с Беном Болкером. Это хорошее упражнение, чтобы выкопать, что происходит внутри, но это чрезмерная реакция, чтобы расценить это как ошибку и исправить ее.


Дополнительные сведения:

s, te и т. Д. В mgcv не работает в той же логике с stats::poly и splines::bs.

  • Когда вы делаете, например, X <- splines::bs(x, df = 10, degree = 3), он оценивает x и создает матрицу дизайна X напрямую.
  • Когда вы делаете s(x, bs = 'cr', k = 10), оценка не производится; проанализировано .

Плавное построение в mgcv занимает несколько этапов:

  1. синтаксический анализ / интерпретация mgcv::interpret.gam, которая генерирует профиль для сглаживателя;
  2. начальная конструкция по mgcv::smooth.construct, которая устанавливает базовую / проектную матрицу и штрафную матрицу (в основном выполняется на уровне C);
  3. вторичная конструкция по mgcv::smoothCon, которая выбирает переменную "по" (например, дублирующее сглаживание для фактора "по"), линейные функциональные термины, штраф за нулевое пространство (если вы используете select = TRUE), изменение масштаба штрафа, центрирование ограничения и т.д .;
  4. окончательная интеграция по mgcv:::gam.setup, которая объединяет все сглаживатели вместе, возвращает матрицу модели и т. Д.

Итак, это гораздо более сложный процесс.

0 голосов
/ 27 июня 2018

Это похоже на mgcv проблему. Например, функция lm() принимает poly() или stats::poly() и выдает те же результаты (кроме имен вещей):

> x <- 1:100
> y <- rnorm(100)
> lm(y ~ poly(x, 3))

Call:
lm(formula = y ~ poly(x, 3))

Coefficients:
(Intercept)  poly(x, 3)1  poly(x, 3)2  poly(x, 3)3  
    0.07074      0.13631     -1.52845     -0.93285  

> lm(y ~ stats::poly(x, 3))

Call:
lm(formula = y ~ stats::poly(x, 3))

Coefficients:
       (Intercept)  stats::poly(x, 3)1  stats::poly(x, 3)2  stats::poly(x, 3)3  
           0.07074             0.13631            -1.52845            -0.93285  

Он также работает с функцией splines::bs, так что это не относится только к poly().

Вы должны связаться с сопровождающим mgcv и указать на эту ошибку в этом пакете. Я предполагаю, что он ищет s, а не выражение типа mgcv::s, которое оценивает одно и то же.

...