Question

Я пытаюсь построить двоичное дерево классификации с пакетом rpart в R для набора данных, но общая точность, достигнутая на модели, слишком высока (99,8%?), И дерево огромно с множеством разбиений.

Это будет признаком переоборудованной модели? Сокращение сложности с минимальными затратами не приводило к тому, что сокращенное дерево сильно отличалось от полностью выращенного дерева при cp = 0.

Если да, то свидетельствует ли это о том, что набор данных может быть несбалансированным, и, следовательно, мне следует пересмотреть класс меньшинства (~ 15%) с помощью SMOTE?

Опять же, как можно определить по результатам модели CART, является ли набор данных несбалансированным?

Наконец, можно ли с уверенностью сказать, что уменьшение размера набора данных является разумной жертвой, когда речь идет об использовании SMOTE для балансировки несбалансированного набора данных?

Извините за множество вопросов и большое спасибо за вашу помощь.

Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы