Для тех, кто заинтересован и в качестве дополнения к полученным ответам, я настоятельно рекомендую следующую статью:
Лемнару, C., & Potolea, R. (2011, июнь). Несбалансированные проблемы классификации: систематика c исследование, проблемы и лучшие практики. В Международной конференции по корпоративным информационным системам (стр. 35-50). Springer, Berlin, Heidelberg.
Авторы утверждают, что:
С точки зрения решений, поскольку ожидается, что производительность не улучшится значительно при более сложной стратегии выборки, следует уделять больше внимания быть выделенным для улучшений, связанных с алгоритмом, а не для улучшения данных.
Так как, например, ChaLearn AutoML Challenge 2015 использовал сбалансированную точность, sklearn утверждает, что это подходящая метрика c для несбалансированных данных и Auto -Sklearn был в состоянии вычислить хорошо подходящие модели, я собираюсь попробовать. Даже без передискретизации результаты были намного «лучше» (с точки зрения качества прогноза), чем просто использование точности.