Какие данные следует использовать для проверки модели после построения модели на основе данных с недостаточной выборкой? - PullRequest
1 голос
/ 23 октября 2019

Я строю модель дерева решений с функцией rpart. Из-за несбалансированных данных мне пришлось занижать свои данные. Сначала я разбил свои данные на тренировку и проверку в соотношении 70:30 и провел небольшую выборку из набора данных тренировки. Теперь у меня есть модель построена. Я хотел подтвердить, правильно ли это, чтобы запустить матрицу прогнозирования и путаницы для данных проверки. Нет необходимости анализировать данные валидации.

 Model_1 <- rpart(Tag~.,
            data = data_downsample ,
            method = "class",
            control=rpart.control(
            minsplit=20,
            cp=0.002,
            maxdepth = 2
            )
          )
Model_1 
rpart.plot(Model_1 )
summary(Model_1 )
pred <- predict(Model_1 , validation, type = "class")
perf <- table(validation$Tag, pred, dnn=c("Actual", "Predicted"))
perf

Валидация составляет 30% от базовой совокупности. Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...