Несбалансированные данные в Sklearn: когда это случится? - PullRequest
0 голосов
/ 02 мая 2020

Я использую sklearn Logisti c Пакет регрессии в модели с 88% не событий и 12% событий. Прогноз всегда равен нулю, и я получаю точность 88%. Я думаю, что данные не достаточно сбалансированы, я попытался предсказать ту же базу данных в SAS и получил другой ответ. К какому уровню несбалансированного склеарна трудно привести?

1 Ответ

0 голосов
/ 04 мая 2020

Обычно, если данные имеют более 70-30 распределений, мы можем сказать, что данные имеют тенденцию к несбалансированности. Теперь, чтобы решить проблему, вы можете попробовать либо при выборке (если данные ОГРОМНЫЕ), либо при избыточной выборке (я предпочитаю это, используя библиотеку SMOTE). Таким образом, вы можете отменить огромный уклон получения 1 на выходе. Я надеюсь, что вы хотели знать, как справиться с дисбалансом данных. Правильно?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...