Как проверить качество оценки вероятностей? - PullRequest
2 голосов
/ 26 октября 2009

Я создал эвристику (ANN, но это не важно), чтобы оценить вероятности события (результаты спортивных игр, но это тоже не важно). Учитывая некоторые входные данные, эта эвристика говорит мне, каковы вероятности события. Примерно так: Учитывая данные тезисы, команда B имеет 65% шансов на победу.

У меня есть большой набор входных данных, для которых я теперь получаю результат (игры, в которые ранее играли). Какую формулу / метрику я могу использовать для оценки точности моей оценки.

Проблема, которую я вижу, состоит в том, что, если оценщик говорит, что событие имеет вероятность 20%, и событие действительно происходит. У меня нет никакого способа сказать, правильна моя оценка или нет. Возможно, это неправильно, и событие было более вероятным, чем это. Может быть, это правильно, событие как около 20% вероятности произойдет и произошло. Может быть, это неправильно, вероятность того, что событие произойдет очень мало, скажем, 1 к 1000, но случилась на этот раз.

К счастью, у меня есть много фактических тестовых данных, поэтому, вероятно, есть способ использовать их для квалификации моей эвристики.

кто-нибудь получил идею?

Ответы [ 3 ]

3 голосов
/ 28 октября 2009

Существует ряд измерений, которые можно использовать для количественной оценки производительности двоичного классификатора.

Вас волнует, выдает ли ваша оценка (ANN, например) калиброванную вероятность или нет?

Если нет, то есть все, что имеет значение, это упорядочение рангов, то максимизация площади под ROC-кривой (AUROC) является довольно хорошей сводкой производительности метрики. Другие "KS" статистика, лифт. Их много в использовании, и они подчеркивают различные аспекты производительности.

Если вы заботитесь о калиброванных вероятностях, то наиболее распространенными метриками являются «перекрестная энтропия» (также известная как вероятность Бернулли / максимальная вероятность, типичная мера, используемая в логистической регрессии) или «показатель Бриера». Оценка Бриера является ничем иным, как среднеквадратичной ошибкой, сравнивающей непрерывные предсказанные вероятности с бинарными фактическими результатами.

То, что правильно использовать, зависит от конечного применения классификатора. Например, ваш классификатор может очень хорошо оценить вероятность выбросов, но не соответствует стандартам близких результатов.

Обычно истинная метрика, которую вы пытаетесь оптимизировать, - это «сделанные доллары». Это часто трудно представить математически, но начиная с этого, вы лучше всего подходите к выбору подходящей и вычислительной метрики.

1 голос
/ 26 октября 2009

Как вы заявили, если вы прогнозируете, что событие имеет 20% случаев, а 80% не произойдет, то наблюдение за единичным изолированным событием не скажет вам, насколько хорош или плох ваш оценщик. Однако, если у вас была большая выборка событий, для которых вы прогнозировали 20% успеха, но заметьте, что по этой выборке 30% успешных, вы можете начать подозревать, что ваша оценка выключена.
Один из подходов состоит в том, чтобы сгруппировать ваши события по прогнозируемой вероятности возникновения, наблюдать фактическую частоту по группам и измерять разницу. Например, в зависимости от того, сколько у вас есть данных, сгруппируйте все события, где вы прогнозируете вхождение от 20% до 25%, и вычислите фактическую частоту вхождения по группам - и измерьте разницу для каждой группы. Это должно дать вам хорошее представление о том, является ли ваша оценка предвзятой и, возможно, для каких диапазонов она отключена.

1 голос
/ 26 октября 2009

В зависимости от используемой вами функции принятия решения.

В случае задачи двоичной классификации (прогнозирование того, произошло событие или нет [ex: win]), простая реализация состоит в том, чтобы предсказать 1, если вероятность больше 50%, 0 в противном случае.

Если у вас есть проблема с мультиклассом (предсказать, какое из событий K произошло [например: победа / ничья / проигрыш]), вы можете предсказать класс с наибольшей вероятностью.

И способ оценки вашей эвристики состоит в том, чтобы вычислить ошибку предсказания путем сравнения фактического класса каждого входа с предсказанием вашей эвристики для этого экземпляра.

Обратите внимание, что вы обычно делите свои данные на части поезда / теста, чтобы получить более точные ( несмещенные ) оценки производительности.

Существуют и другие инструменты для оценки, такие как ROC-кривые , которые представляют собой способ изобразить эффективность в отношении истинных / ложных поститивов.

...