Является ли RO C и AU C значимым для несбалансированных данных? - PullRequest
0 голосов
/ 30 января 2020

У меня возникли проблемы с пониманием того, как интерпретировать RO C и его площадь под кривой для задачи классификации.

  1. Как правило, чем выше AU C Чем лучше модель может классифицировать истину как истину и ложь как ложь, независимо от порогового значения, правильно?

  2. Если AU C = 1, вы можете сказать, что существует порог, при котором Истинная положительная частота (Recall) составляет 100%, что означает, что все истинные наблюдения предсказаны как истинные , а Ложная положительная ставка равна нулю, что означает, что не существует предсказанного истинного значения, которое на самом деле является ложным. Более того, TPR всегда составляет 100% для каждого порога, только FPR увеличивается. Это правильно?

  3. А как насчет несбалансированных данных? Поэтому, если у меня есть 95 точек данных класса 1 и 5 класса 2, и мой классификатор всегда предсказывает класс 1, я все равно буду иметь точность 95%. Поэтому я понимаю, почему точность не подходит для этого случая. А как же АС C? Имеет ли смысл иметь несбалансированные данные? Достигнет ли этот классификатор высокого или низкого значения AU C? Имеет ли значение, какой класс я выбираю, чтобы быть «истинным»?

Я просмотрел некоторые блоги. Некоторые говорят, что да, некоторые говорят, нет. Может кто-нибудь объяснить это на примере для лучшего понимания?

Спасибо! Ура!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...