Деревья решений с Logloss и SMOTE - PullRequest
0 голосов
/ 12 мая 2018

Я работаю через несколько деревьев решений с данными Kaggle Walmart соревнования , и я сталкиваюсь с парой ошибок.На прошлой неделе мне удалось запустить деревья в rpart, но теперь я использую символ вставки для включения logloss и smote для переклассификации.Ниже приведен мой код и соответствующие ошибки:

set.seed(1234)
ind <- sample(2, nrow(data), replace=TRUE, prob=c(0.8, 0.2))
train <- data[ind==1,]
test <- data[ind==2,]
########################
#Building a new DT with logloss and CV
########################

ctrl <- trainControl(method="cv", number=5, classProbs=TRUE, 
summaryFunction=mnLogLoss)

ll_tree <- train(TripType~., data=train, method="rpart",  metric="logLoss", 
trControl=ctrl)

Error in ctrl$summaryFunction(testOutput, lev, method) : 
  'data' should have columns consistent with 'lev'
In addition: Warning message:
In train.default(x, y, weights = w, ...) :
  cannnot compute class probabilities for regression


###################
#Using SMOTE
###################
ctrl2 <- trainControl(method="cv", number=5, classProbs=TRUE, 
summaryFunction=mnLogLoss, sampling = "smote")
smote_tree <- train(TripType~., data=train, trControl=ctrl2, method="rpart")

Error: sampling methods are only implemented for classification problems

Буду признателен за любую помощь, так как я впервые пытаюсь это сделать.

Спасибо

...