У меня возникли проблемы с пониманием того, как интерпретировать RO C и его площадь под кривой для задачи классификации.
Как правило, чем выше AU C Чем лучше модель может классифицировать истину как истину и ложь как ложь, независимо от порогового значения, правильно?
Если AU C = 1, вы можете сказать, что существует порог, при котором Истинная положительная частота (Recall) составляет 100%, что означает, что все истинные наблюдения предсказаны как истинные , а Ложная положительная ставка равна нулю, что означает, что не существует предсказанного истинного значения, которое на самом деле является ложным. Более того, TPR всегда составляет 100% для каждого порога, только FPR увеличивается. Это правильно?
А как насчет несбалансированных данных? Поэтому, если у меня есть 95 точек данных класса 1 и 5 класса 2, и мой классификатор всегда предсказывает класс 1, я все равно буду иметь точность 95%. Поэтому я понимаю, почему точность не подходит для этого случая. А как же АС C? Имеет ли смысл иметь несбалансированные данные? Достигнет ли этот классификатор высокого или низкого значения AU C? Имеет ли значение, какой класс я выбираю, чтобы быть «истинным»?
Я просмотрел некоторые блоги. Некоторые говорят, что да, некоторые говорят, нет. Может кто-нибудь объяснить это на примере для лучшего понимания?
Спасибо! Ура!