Я хочу добавить к ответу по PV8, как уже упоминалось выше, это очень несбалансированный набор данных. Вы можете посмотреть на различные показатели, такие как ROC
, PR curve
, сбалансированный показатель точности, stratified k fold cross validation
, отрегулировать вес классов и попробовать under/over sampling
. Может быть хорошей идеей попробовать другие упомянутые подходы, прежде чем приступить к выборке.
Поскольку вы используете scikit-learn, вы можете использовать пакет imbalanced-learn вместе с ним, https://imbalanced-learn.readthedocs.io/en/stable/install.html , Он обеспечит различные алгоритмы выборки заниженной / избыточной выборки, классификаторы, показатели для несбалансированных наборов данных.