Я имею дело с проблемой несбалансированной классификации классов, в которой у меня соотношение дисбалансов равно 0: 1 = 717,26: 1. Я перепробовал много моделей, из которых мне показалось, что GBM работает лучше всего для моего случая.
Затем я наткнулся на исследовательскую статью и статью, посвященную проблеме несбалансированного класса.
Рекомендации по использованию метрик производительности в отношении несбалансированных данных
Обработка дисбаланса класса с помощью R и каретки - Предупреждения при использовании AU C
как в приведенной выше статье, так и в статье, которую я обнаружил, они говорят противоположное.
Он говорит: «Мы обнаружили, что с за исключением области под кривой RO C, все показатели производительности были ослаблены из-за несбалансированного распределения, во многих случаях это резко: показатели альфа и каппа были подвержены перекосу в любом направлении, в то время как показатель F1 влиял на перекос только в одном В то время как RO C не был подвержен перекосу, кривые точного отзыва предполагают, что RO C может маскировать низкую производительность ", что означает, что AU C PR также подвержен влиянию, как показано на рисунке
в то время как в Дэн Мартин (автор) говорит, что только AU C RO C не следует использовать для выбора лучшего классификатора. мы должны взять AU C PR также на картинке, когда имеешь дело с несбалансированным обучением в классе.
Теперь мой вопрос: если я считаю, что результат исследования является правдой, то он будет противоречить упомянутым результатам статьи.
Так может кто-нибудь сказать, какой из них следует считать правильным?
Извините за длинный вопрос.
Заранее спасибо!