Я пытаюсь построить двоичное дерево классификации с пакетом rpart в R для набора данных, но общая точность, достигнутая на модели, слишком высока (99,8%?), И дерево огромно с множеством разбиений.
Это будет признаком переоборудованной модели? Сокращение сложности с минимальными затратами не приводило к тому, что сокращенное дерево сильно отличалось от полностью выращенного дерева при cp = 0.
Если да, то свидетельствует ли это о том, что набор данных может быть несбалансированным, и, следовательно, мне следует пересмотреть класс меньшинства (~ 15%) с помощью SMOTE?
Опять же, как можно определить по результатам модели CART, является ли набор данных несбалансированным?
Наконец, можно ли с уверенностью сказать, что уменьшение размера набора данных является разумной жертвой, когда речь идет об использовании SMOTE для балансировки несбалансированного набора данных?
Извините за множество вопросов и большое спасибо за вашу помощь.