Сравнение AUC, потерь в журнале и оценки точности между моделями - PullRequest
1 голос
/ 29 октября 2019

У меня есть следующие показатели оценки на test set, после запуска 6 моделей для binary classification problem:

  accuracy logloss   AUC
1   19%      0.45   0.54
2   67%      0.62   0.67
3   66%      0.63   0.68
4   67%      0.62   0.66
5   63%      0.61   0.66
6   65%      0.68   0.42

У меня есть следующие вопросы:

  • КакМожет ли модель 1 быть лучшей с точки зрения logloss (logloss является ближайшей к 0), поскольку она работает хуже (с точки зрения accuracy). Что это значит?
  • Почему у модели 6 балл AUC ниже, чем, например, у модели 5, когда у модели 6 лучше accuracy. Что это значит?
  • Можно ли сказать, какая из этих 6 моделей лучше?

1 Ответ

4 голосов
/ 29 октября 2019

Очень кратко, со ссылками (поскольку части этого уже обсуждались в другом месте) ...

Как модель 1 может быть лучшей с точки зрения logloss (logloss является ближайшим к 0), поскольку он работает хуже (в терминах accuracy). Что это значит?

Хотя потеря является показателем точности (или наоборот), она не очень надежна в этом вопросе. Здесь может быть полезен более внимательный взгляд на конкретную механику между точностью и потерями;Рассмотрим следующие темы SO (отказ от ответственности: ответы мои):

Чтобы немного уточнить:

Предположим, что образец систинная метка y=1, вероятностный прогноз из классификатора p=0.51 и порог принятия решения 0,5 (т. е. для p>0.5 мы классифицируем как 1, в противном случае как 0), вклад этой выборки вточность равна 1/n (то есть положительна), тогда как потеря равна

-log(p) = -log(0.51) = 0.6733446

. Теперь снова предположим другую выборку с истинным y=1, но теперь с вероятностным прогнозом p=0.99;вклад в точность будет таким же, в то время как потери теперь будут:

-log(p) = -log(0.99) = 0.01005034

Таким образом, для двух выборок, которые оба правильно классифицированы (т.е. они положительно влияют на точность точно той же величиной)у нас довольно большая разница в соответствующих потерях ...

Хотя то, что вы здесь представляете, кажется довольно экстремальным, не должно быть сложным представить ситуацию, когда множество образцов y=1 будет вокругплощадь p=0.49, следовательно, дает относительно низкие потери, но, тем не менее, нулевой вклад в точность ...

Почему модель 6 имеет более низкий AUC показательчем, например, модель 5, когда модель 6 имеет лучше accuracy. Что это значит?

Этот проще.

По моему опыту, по крайней мере, большинство практиков ОД считают, что оценка AUC измеряет нечто отличное от того, что фактически делает : обычное (и неудачное) использование такое же, как и любое другоепоказатель выше-лучше, например, точность, которая может естественным образом приводить к головоломкам, подобным той, которую вы выражаете сами.

Правда в том, что, грубо говоря, AUC измеряет производительность двоичного классификатора, усредненного через все возможные пороги принятия решения . Таким образом, AUC фактически не измеряет производительность конкретной развернутой модели (которая включает в себя выбранный порог принятия решения), а усредненную производительность моделей семейства по всем пороговым значениям (подавляющее большинство которыхКонечно, вас это не интересует, так как они никогда не будут использоваться).

По этой причине AUC начал получать серьезную критику в литературе (не читайте неправильно - анализ кривой ROC) само по себе очень информативно и полезно); статья в Википедии и ссылки, приведенные в ней, настоятельно рекомендуется читать:

Таким образом, практическая ценность меры AUC была поставлена ​​под сомнение, что повышает вероятность того, что AUC можетфактически вносит больше неопределенности в сравнение точности классификации машинного обучения, чем разрешение.

[...]

Одно из недавних объяснений проблемы с ROC AUC состоит в том, что сокращение кривой ROC до единого числа игнорируеттот факт, что речь идет о компромиссах между различными системами или показанными точками производительности и , а не о производительности отдельной системы

Выделение - см. также Об опасностяхAUC ...

Простой совет: не используйте его .

Есть ли способ сказать, какая из этих 6 моделейлучший?

Зависит от точного определения «лучший»;если «лучший» означает лучший для моей собственной бизнес-задачи, который я пытаюсь решить (а не иррациональное определение для практикующего врача ML ), то это тот, который работает лучше в соответствии с бизнес метрика, соответствующая вашей проблеме, которую вы определили сами. Это может никогда быть AUC, и обычно это также не потеря ...

...