F1 - оценка с несбалансированными данными - PullRequest
0 голосов
/ 06 марта 2020

Я работаю над задачей двоичной классификации. Мои оценочные данные несбалансированы и состоят из ок. 20% из класса 1 и 80% из класса 2. Даже у меня хорошая точность классификации для каждого типа класса, как 0,602 для класса 1, 0,792 для класса 2, если я вычисляю оценку f1 по классу 1, я получаю 0,46, так как количество ложноположительных результатов велико. Если я вычислю это по классу 2, я получу f1-балл как 0,84.

Мой вопрос заключается в том, что является наилучшей практикой для оценки задачи классификации по несбалансированным данным? Могу ли я получить среднее значение этих f1-баллов или выбрать один из них? Каков наилучший показатель оценки c для оценки классификационных заданий на несбалансированных данных?

Кстати, это мои TP, TN, FN, FP рассчитывает;

TP: 115

TN: 716

FN: 76

FP: 188

1 Ответ

1 голос
/ 06 марта 2020

Я не уверен, что это то, что вы ищете, но поскольку данные, из которых вы хотите получить показатель производительности c, несбалансированы, вы можете попытаться применить взвешенные измерения, такие как взвешенное f1- Гол. Из scikit-learn f1-score имеет опцию «weighted», которая учитывает количество экземпляров на ярлык. Таким образом, вы можете получить усредненный результат F1.

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html

Надеюсь, это поможет!

...