Я новичок в R и сейчас просто изучаю прогноз классификации. У меня есть набор данных, содержащий 4 столбца, но до 6600 тысяч строк.
DATE |TIME |ITEM |Job scope
Monday |12 |coffee |Police
Monday |13 |bread |Police
Monday |22 |bread |Medical
Область работы станет моей меткой класса, поэтому в конце прогноз будет областью работы. Для вашей информации, у Предмета есть 10 разных переменных, а в Сфере Работы в колонке 5 разных переменных.
Я пробовал использовать несколько алгоритмов, таких как randomForest, rpart и cforest, но, похоже, все не работает, и RStudio будет зависать после выполнения кода. Вот код, который я использую
fit <- cforest(as.factor(Job.Scope) ~ Date + Hour + Item,
data = tt_10,
controls=cforest_unbiased(ntree=2000,mtry=3))
fit <- randomForest(as.factor(Job.Scope) ~ Date + Hour +Item,
data=tt_10,
importance=TRUE,
ntree=2000)
fit <- rpart(Job.Scope ~ Date + Hour + Item, method="class", data=TrainData,
control=rpart.control(minsplit=1))
Будем весьма благодарны за любые предложения в отношении кода или любые рекомендации, которые вы могли бы мне предложить.