Настройка разреженной матрицы xgboost в R - PullRequest
0 голосов
/ 07 июля 2019

Я строю свою первую модель xgboost. Мои вопросы: правильно ли я настраиваю свою разреженную матрицу? Я буду использовать Бостонский набор данных из пакета MASS. Зависимая переменная будет «medv».

library(MASS)
library(xgboost)
library(Matrix)
library(dplyr)

data = Boston

#For this example, I only want to select a few variables.
variables = c("crim", "indus", "nox", "ptratio", "lstat", "medv","rm", "rad", "tax")
data = data %>% dplyr::select(variables)

#create the training and test data set.
samp = sample(1:nrow(data), 375)
train = data[samp,]
test = data[-samp,]

#create sparse matrix for xgboost
train.label = train$medv
train.data = sparse.model.matrix(medv ~.-1, data = train.data)

train.data = xgb.DMatrix(data = train.data, label = train.label)

print(train.data)
xgb.DMatrix  dim: 375 x 8  info: label  colnames: yes

После этого шага кажется, что я готов использовать функции xgboost / xgb.train. Пожалуйста, исправьте меня, если я сделал ошибку или смогу улучшить свой процесс. Спасибо.

...