Очень кратко, со ссылками (поскольку части этого уже обсуждались в другом месте) ...
Как модель 1
может быть лучшей с точки зрения logloss
(logloss
является ближайшим к 0), поскольку он работает хуже (в терминах accuracy
). Что это значит?
Хотя потеря является показателем точности (или наоборот), она не очень надежна в этом вопросе. Здесь может быть полезен более внимательный взгляд на конкретную механику между точностью и потерями;Рассмотрим следующие темы SO (отказ от ответственности: ответы мои):
Чтобы немного уточнить:
Предположим, что образец систинная метка y=1
, вероятностный прогноз из классификатора p=0.51
и порог принятия решения 0,5 (т. е. для p>0.5
мы классифицируем как 1
, в противном случае как 0
), вклад этой выборки вточность равна 1/n
(то есть положительна), тогда как потеря равна
-log(p) = -log(0.51) = 0.6733446
. Теперь снова предположим другую выборку с истинным y=1
, но теперь с вероятностным прогнозом p=0.99
;вклад в точность будет таким же, в то время как потери теперь будут:
-log(p) = -log(0.99) = 0.01005034
Таким образом, для двух выборок, которые оба правильно классифицированы (т.е. они положительно влияют на точность точно той же величиной)у нас довольно большая разница в соответствующих потерях ...
Хотя то, что вы здесь представляете, кажется довольно экстремальным, не должно быть сложным представить ситуацию, когда множество образцов y=1
будет вокругплощадь p=0.49
, следовательно, дает относительно низкие потери, но, тем не менее, нулевой вклад в точность ...
Почему модель 6
имеет более низкий AUC
показательчем, например, модель 5
, когда модель 6
имеет лучше accuracy
. Что это значит?
Этот проще.
По моему опыту, по крайней мере, большинство практиков ОД считают, что оценка AUC измеряет нечто отличное от того, что фактически делает : обычное (и неудачное) использование такое же, как и любое другоепоказатель выше-лучше, например, точность, которая может естественным образом приводить к головоломкам, подобным той, которую вы выражаете сами.
Правда в том, что, грубо говоря, AUC измеряет производительность двоичного классификатора, усредненного через все возможные пороги принятия решения . Таким образом, AUC фактически не измеряет производительность конкретной развернутой модели (которая включает в себя выбранный порог принятия решения), а усредненную производительность моделей семейства по всем пороговым значениям (подавляющее большинство которыхКонечно, вас это не интересует, так как они никогда не будут использоваться).
По этой причине AUC начал получать серьезную критику в литературе (не читайте неправильно - анализ кривой ROC) само по себе очень информативно и полезно); статья в Википедии и ссылки, приведенные в ней, настоятельно рекомендуется читать:
Таким образом, практическая ценность меры AUC была поставлена под сомнение, что повышает вероятность того, что AUC можетфактически вносит больше неопределенности в сравнение точности классификации машинного обучения, чем разрешение.
[...]
Одно из недавних объяснений проблемы с ROC AUC состоит в том, что сокращение кривой ROC до единого числа игнорируеттот факт, что речь идет о компромиссах между различными системами или показанными точками производительности и , а не о производительности отдельной системы
Выделение - см. также Об опасностяхAUC ...
Простой совет: не используйте его .
Есть ли способ сказать, какая из этих 6 моделейлучший?
Зависит от точного определения «лучший»;если «лучший» означает лучший для моей собственной бизнес-задачи, который я пытаюсь решить (а не иррациональное определение для практикующего врача ML ), то это тот, который работает лучше в соответствии с бизнес метрика, соответствующая вашей проблеме, которую вы определили сами. Это может никогда быть AUC, и обычно это также не потеря ...