Несбалансированное обучение - PullRequest
0 голосов
/ 28 февраля 2020

Я имею дело с проблемой несбалансированной классификации классов, в которой у меня соотношение дисбалансов равно 0: 1 = 717,26: 1. Я перепробовал много моделей, из которых мне показалось, что GBM работает лучше всего для моего случая.

Затем я наткнулся на исследовательскую статью и статью, посвященную проблеме несбалансированного класса.

Рекомендации по использованию метрик производительности в отношении несбалансированных данных

Обработка дисбаланса класса с помощью R и каретки - Предупреждения при использовании AU C

как в приведенной выше статье, так и в статье, которую я обнаружил, они говорят противоположное.

From research paper

Он говорит: «Мы обнаружили, что с за исключением области под кривой RO C, все показатели производительности были ослаблены из-за несбалансированного распределения, во многих случаях это резко: показатели альфа и каппа были подвержены перекосу в любом направлении, в то время как показатель F1 влиял на перекос только в одном В то время как RO C не был подвержен перекосу, кривые точного отзыва предполагают, что RO C может маскировать низкую производительность ", что означает, что AU C PR также подвержен влиянию, как показано на рисунке

в то время как в Дэн Мартин (автор) говорит, что только AU C RO C не следует использовать для выбора лучшего классификатора. мы должны взять AU C PR также на картинке, когда имеешь дело с несбалансированным обучением в классе.

Теперь мой вопрос: если я считаю, что результат исследования является правдой, то он будет противоречить упомянутым результатам статьи.

Так может кто-нибудь сказать, какой из них следует считать правильным?

Извините за длинный вопрос.

Заранее спасибо!

...