Различия между выбранными переменными в coef и резюме - PullRequest
0 голосов
/ 13 июня 2019

Я обучил модель с nvmax = 5 из 217 переменных.Проблема в том, что выбранные переменные в резюме () отличаются от выбранных с помощью coef ().

Файл данных можно найти здесь: http://www.atlasbrasil.org.br/2013/data/rawData/atlas2013_dadosbrutos_pt.xlsx

Тогда я делаю:

library("readxl")
library("MASS")
library("leaps")
library("caret")

dados_municipios <- read_excel("atlas2013_dadosbrutos_pt.xlsx",sheet=2,col_types="numeric")

dados_municipios_sc_2010 <- dados_municipios[dados_municipios$UF == 42 & dados_municipios$ANO == 2010,]

dados <- subset(dados_municipios_sc_2010, select=-c(ANO,UF,Codmun6,Codmun7,Município,
                             CORTE1,CORTE2,CORTE3,CORTE4,CORTE9,
                             RDPC1,RDPC10,RDPC2,RDPC3,RDPC4,RDPC5,RDPCT,
                             RIND,RMPOB,RPOB))

# Set up repeated k-fold cross-validation
controle <- trainControl(method="cv", number=5, repeats=5)

set.seed(100)
modelo1 <- train(RDPC~., data=dados, method="leapBackward", tuneGrid=data.frame(nvmax=5), trControl=controle)

# The differences are here:
summary(modelo1) # In the summary, it stars [*] a variable named PIA, for number of varibles equal to 5 (nv = 5)
coef(modelo1$finalModel,5) # Here, for nv = 5, PIA is not chosen

Существует также странное поведение, когда я устанавливаю nvmax = 5 и получаю модели до nv = 6. Это ожидается?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...