Почему SMOTE не влияет на производительность большинства наборов данных? - PullRequest
0 голосов
/ 15 февраля 2020

Я работаю с сильно несбалансированным набором данных (4%, 23%, 73%), и я получаю точность ~ 73%, поскольку класс большинства всегда прогнозируется. При использовании SMOTE для балансировки набора данных я приближаюсь к точности 33,33%, что интуитивно понятно, так как больше не может угадывать класс большинства. Кажется, сложно повысить точность с 33,33% до 73% с помощью разработки функций / моделей для некоторых наборов данных. Почему это значительное снижение точности не происходит для других несбалансированных наборов данных, таких как обнаружение мошенничества с кредитными картами. Если да, то можно ли обойти эту проблему, просто улучшив модель, пока мы не достигнем приличной точности метри c в качестве компромисса?

...