У меня есть набор данных, состоящий из 15 столбцов и 3000 строк, чтобы обучить модель для двоичной классификации.
Существует дисбаланс для у (1: 2). Оба результата (0,1) одинаково важны.
После понижающей дискретизации (поскольку параметр class_weight = сбалансированный не работал должным образом), я использовал параметр scoring = "f1", потому что я прочитал, что это было рядом с кривой ROC, лучшим измерением производительности.
Вопрос в следующем:
Обращаюсь ли я к своим данным после понижающей дискретизации как к несбалансированным и, следовательно, применяю f1 или могу вернуться к нормальной точности?
f1 = 2 * (точность * отзыв) / (точность + отзыв)
Ура заранее! :)