Я строю свою первую модель xgboost. Мои вопросы: правильно ли я настраиваю свою разреженную матрицу? Я буду использовать Бостонский набор данных из пакета MASS. Зависимая переменная будет «medv».
library(MASS)
library(xgboost)
library(Matrix)
library(dplyr)
data = Boston
#For this example, I only want to select a few variables.
variables = c("crim", "indus", "nox", "ptratio", "lstat", "medv","rm", "rad", "tax")
data = data %>% dplyr::select(variables)
#create the training and test data set.
samp = sample(1:nrow(data), 375)
train = data[samp,]
test = data[-samp,]
#create sparse matrix for xgboost
train.label = train$medv
train.data = sparse.model.matrix(medv ~.-1, data = train.data)
train.data = xgb.DMatrix(data = train.data, label = train.label)
print(train.data)
xgb.DMatrix dim: 375 x 8 info: label colnames: yes
После этого шага кажется, что я готов использовать функции xgboost / xgb.train.
Пожалуйста, исправьте меня, если я сделал ошибку или смогу улучшить свой процесс.
Спасибо.