Значение активации одного выходного нейрона является линейно взвешенной суммой и может быть напрямую интерпретировано как приблизительная вероятность, если сеть обучена давать выходы в диапазоне от 0 до 1. Это, как правило, имеет место, если Передаточная функция (или выходная функция) как на предыдущем этапе, так и обеспечение конечного выхода также находится в диапазоне от 0 до 1 (обычно сигмоидальная логистическая функция). Тем не менее, нет никакой гарантии, что это возможно, но ремонт возможен. Более того, если сигмоиды не являются логистическими и весовые коэффициенты не должны быть положительными и равными 1, это маловероятно. Как правило, нейронная сеть будет тренироваться более сбалансированным образом с использованием сигмовидной оболочки Тан и весов и активаций, которые варьируются от положительных до отрицательных (из-за симметрии этой модели). Другим фактором является распространенность класса - если он составляет 50%, то порог 0,5, вероятно, будет эффективен для логистики, и порог 0,0 для танга. Сигмоид предназначен для того, чтобы подталкивать предметы к центру диапазона (при обратном распространении) и удерживать его от выхода из диапазона (при прямой передаче). Значимость производительности (относительно распределения Бернулли) также может быть интерпретирована как вероятность того, что нейрон делает реальные предсказания, а не догадки. В идеале смещение предиктора к позитивам должно соответствовать распространенности позитивов в реальном мире (который может варьироваться в разное время и в разных местах, например, «бычий» или «медвежий» рынки, например, кредитоспособность людей, обращающихся за кредитами, против людей, которые не могут произвести платежи по кредитам). ) - калибровка по вероятностям имеет то преимущество, что любой желаемый сдвиг может быть легко установлен.
Если у вас есть два нейрона для двух классов, каждый из них можно интерпретировать независимо, как указано выше, и также можно уменьшить половину разницы между ними. Это все равно что щелкнуть по нейрону отрицательного класса и усреднить. Различия могут также привести к оценке вероятности значимости (с использованием T-критерия).
Оценка Бриера и ее разложение Мерфи дают более прямую оценку вероятности того, что средний ответ верен, в то время как Информированность дает вероятность того, что классификатор принимает обоснованное решение, а не предположение, ROC AUC дает вероятность положительного класса будет оцениваться выше, чем отрицательный класс (положительным предиктором), и Каппа даст аналогичное число, которое соответствует информации, когда распространенность = смещение.
То, что вы обычно хотите, это как вероятность значимости для общего классификатора (чтобы убедиться, что вы играете на реальном поле, а не в воображаемой системе оценок) и оценка вероятности для конкретного примера. Существуют различные способы калибровки, в том числе выполнение регрессии (линейной или нелинейной) в зависимости от вероятности и использование ее обратной функции для преобразования в более точную оценку вероятности. Это можно увидеть по улучшению оценки Бриера, при котором компонент калибровки уменьшается до 0, но компонент различения остается тем же, как и ROC AUC и Informedness (Каппа подвержена систематической ошибке и может ухудшиться).
Простой нелинейный способ калибровки по вероятностям заключается в использовании кривой ROC - поскольку пороговое значение изменяется для выходного сигнала одного нейрона или разности между двумя конкурирующими нейронами, мы наносим на график результаты истинных и ложных положительных значений на Кривая ROC (ложные и истинные отрицательные показатели, естественно, являются дополнениями, поскольку то, что на самом деле не является положительным, является отрицательным). Затем вы сканируете кривую ROC (полилинию) точка за точкой (каждый раз, когда изменяется градиент) выборка за выборкой, и доля положительных выборок дает оценку вероятности для позитивов, соответствующих нейронному порогу, который породил эту точку. Значения между точками на кривой могут быть линейно интерполированы между теми, которые представлены в наборе калибровки - и фактически любые плохие точки на кривой ROC, представленные в виде выпуклостей (вмятин), могут быть сглажены выпуклой оболочкой - вероятностная интерполяция между конечные точки сегмента корпуса. Flach и Wu предлагают метод, который на самом деле переворачивает сегмент, но это зависит от того, используется ли информация неправильно, и, хотя она может использоваться неоднократно для произвольного улучшения набора калибровки, вряд ли можно будет обобщать ее в тестовой ситуации.
(Я пришел сюда в поисках статей, которые видел много лет назад об этих подходах на основе ROC - так что это по памяти и без этих потерянных ссылок.)