Я пытаюсь провести классификацию по несбалансированному набору данных (2000 точек данных из положительного класса и 98880 точек данных из отрицательного класса).Я использую Precision, Recall, F-Score и AUC, чтобы сообщить о производительности моделей, но то, как эти модели ведут себя, удивило меня.Вы можете увидеть результаты моделей следующим образом:
TP:1982, TN:87920, FP:10960, FN:18 | PR:0.153, RE:0.991, F1:0.265, AUC:0.972
TP:22, TN:98877, FP:3, FN:1978 | PR:0.880, RE:0.011, F1:0.022, AUC:0.810
TP:148, TN:98271, FP:609, FN:1852 | PR:0.196, RE:0.074, F1:0.107, AUC:0.700
TP:1611, TN:98847, FP:33, FN:389 | PR:0.980, RE:0.805, F1:0.884, AUC:0.998
Как видите,
- В первой модели точность очень низкая, а отзыв очень высокий, чтоприводит к низкому F-Оценка и высокий AUC.
- Во второй модели точность высокая, а отзыв низкий, но результаты схожи, высокий AUC и низкий F-Score.
В третьей модели обаPrecison и Resall очень низки, что приводит к низкому F-Score, но удивительно, что AUC все еще довольно высок
В четвертой модели точность и отзыв высоки, поэтому F-Score иAUC высоки
Итак, могу ли я заключить, что для моей проблемы F-Score является лучшим показателем производительности, чем AUC?