Зачем использовать микро-усредненную ROC-кривую - PullRequest
0 голосов
/ 26 июня 2019

Когда я читал статьи о том, какую метрику выбрать, я обнаружил, что при несбалансированности набора данных кривая PR предпочтительнее кривой ROC.

Например. Учитывая несбалансированный набор данных классификации мультикласса, который имеет класс A: 50 экземпляров, B: 200 экземпляров и C: 50 экземпляров, ясно, что экземпляры класса B в 4 раза больше экземпляров классов A и C. Таким образом, модель будет смещена в сторону прогнозирования. класс B. Итак, классы A и C будут иметь более высокий TN:

  1. Однако ни точность, ни отзыв не заботятся об истинных негативах, поэтому использование кривой PR является правильным выбором.

  2. Прогноз модели приведет к низкому уровню ложных срабатываний (чего мы и хотим), а также к низкому уровню истинных положительных результатов (чего мы не хотим видеть) для классов А и С, следовательно, до тех пор, пока мы обнаружил, что набор данных несбалансирован, мы не должны использовать ROC-кривую. И поскольку мы не используем кривую ROC для несбалансированного набора данных, какова цель получения микро усредненной кривой ROC (для мультиклассовой классификации)? Обратите внимание, что микро-среднее значение ROC - это сумма истинного положительного показателя, деленная на сумму ложного положительного показателя. Другими словами, каждый класс будет иметь вес.

...