Существуют различные методы, с которыми нужно работать при решении проблемы дисбаланса классов. Мало, как указано ниже:
(ссылки включают питонов imblearn
пакет и costcla
пакет )
Resample:
Техника ансамбля:
Обучение с учетом затрат : Вы должны обязательно изучить это, так как упомянули:
В моей задаче ошибочное определение 1 как 0 более проблематично, чем прогнозирование 0 как 1.
При обучении с учетом затрат с использованием пакета costcla
вы должны попробовать , следуя подходу, сохраняя свой базовый классификатор GradientBoostingRegressor:
costcla.sampling.cost_sampling(X, y, cost_mat, method='RejectionSampling', oversampling_norm=0.1, max_wc=97.5)
Здесь вы можете загрузить cost_mat [C_FP, C_FN, C_TP, C_TN] для каждой точки данных в поезде и тесте. C_FP и C_FN основаны на стоимости ошибочной классификации, которую вы хотите установить для классов положительных и отрицательных значений. Обратитесь к полному учебнику по данным кредитного рейтинга здесь .