«выбраны неопределенные столбцы» в модели прогнозирования дерева решений c50 - PullRequest
0 голосов
/ 19 ноября 2018

Я пытаюсь решить эту проблему о факторе в течение нескольких часов.Я использую библиотеку C50 для прогнозирования дерева решений на моем фрейме данных, но она дает «неопределенную ошибку в выбранном столбце» для модели. Цель состоит в том, чтобы предсказать успеваемость учащихся на основе других переменных.

The dataframe looks like 
ID term event_count checkin_count emergency_flag probation
111  1     3           4              0              0
112  2     2           2              1              1
113  1     0           6              1              0   

data$probation_status <- ifelse(data$PROBATION == 0, "good academic 
standing","on probation")
data$TERM <- as.factor(data$TERM)
data$EVENT_COUNT <- as.factor(data$EVENT_COUNT)
data$CHECKIN_COUNT <- as.factor(data$CHECKIN_COUNT)
data$EMERGENCYFLAG <- as.factor(data$EMERGENCYFLAG)

library(C50)
#create sample size and split into traning and testing data
sample_size <-floor(0.8*nrow(data))
training_index <-sample(seq_len(nrow(data)), size =sample_size)
train <- data[training_index,]
test <- data[-training_index,]

train$probation_status <- as.factor(train$probation_status)
str(train$probation_status)
predictors <- c('term','event_count','checkin_count','emergency_flag') 

# Error occurs when executing the following line 
# Error in `[.data.frame`(train, , predictors) : undefined columns 
  selected
model.DT <-C5.0.default(x =train[,predictors], 
y=train$probation_status)

Любая помощь очень ценится.Спасибо.

...