Я строю модель дерева решений с функцией rpart. Из-за несбалансированных данных мне пришлось занижать свои данные. Сначала я разбил свои данные на тренировку и проверку в соотношении 70:30 и провел небольшую выборку из набора данных тренировки. Теперь у меня есть модель построена. Я хотел подтвердить, правильно ли это, чтобы запустить матрицу прогнозирования и путаницы для данных проверки. Нет необходимости анализировать данные валидации.
Model_1 <- rpart(Tag~.,
data = data_downsample ,
method = "class",
control=rpart.control(
minsplit=20,
cp=0.002,
maxdepth = 2
)
)
Model_1
rpart.plot(Model_1 )
summary(Model_1 )
pred <- predict(Model_1 , validation, type = "class")
perf <- table(validation$Tag, pred, dnn=c("Actual", "Predicted"))
perf
Валидация составляет 30% от базовой совокупности. Спасибо.