Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE - PullRequest
0 голосов
/ 05 ноября 2018

Я пытаюсь построить двоичное дерево классификации с пакетом rpart в R для набора данных, но общая точность, достигнутая на модели, слишком высока (99,8%?), И дерево огромно с множеством разбиений.

Это будет признаком переоборудованной модели? Сокращение сложности с минимальными затратами не приводило к тому, что сокращенное дерево сильно отличалось от полностью выращенного дерева при cp = 0.

Если да, то свидетельствует ли это о том, что набор данных может быть несбалансированным, и, следовательно, мне следует пересмотреть класс меньшинства (~ 15%) с помощью SMOTE?

Опять же, как можно определить по результатам модели CART, является ли набор данных несбалансированным?

Наконец, можно ли с уверенностью сказать, что уменьшение размера набора данных является разумной жертвой, когда речь идет об использовании SMOTE для балансировки несбалансированного набора данных?

Извините за множество вопросов и большое спасибо за вашу помощь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...