Как я могу оценить эффективность алгоритма, который предсказывает вероятности? - PullRequest
3 голосов
/ 01 февраля 2010

Мне нужно оценить эффективность алгоритмов, которые предсказывают вероятность того, что что-то происходит.

Мой текущий подход заключается в использовании «среднеквадратичной ошибки», т.е. квадратный корень из среднего квадрата ошибок, где ошибка: 1.0-прогноз , если событие произошло, или прогноз , если событие не произошло.

Алгоритмы не имеют конкретных применений, но наиболее распространенным будет создание прогноза события, происходящего для каждого из множества вариантов, а затем выбор варианта, который максимизирует эту вероятность. Выгода для нас прямо пропорциональна скорости, с которой происходит желаемое событие среди вариантов, которые имеют самые высокие предсказанные вероятности.

Было высказано предположение, что RMSE может быть не лучшим вариантом для этого, и меня интересуют мнения других.

Ответы [ 4 ]

1 голос
/ 01 февраля 2010

A критерий хи-квадрат является широко используемым распределительным фитнес-тестом:

∑ (O i - E i ) 2 / E i

где O i - наблюдаемая частота исхода i и E i - ожидаемая частота , Этот критерий хи-квадрат требует минимального размера выборки (~ 5 или 10, в зависимости от распределения, в частности, степеней свободы распределения) для каждого возможного результата. Если требование к размеру выборки не выполнено, необходимо применить поправку Йейтса:

∑ (| O i - E i | - 0.5) 2 / E i

Отказ от ответственности: я не статистика. Выше, вероятно, не хватает некоторых тонких моментов. Я знаю, что есть веская причина использовать хи-квадрат над RMSE, но я не могу вспомнить, что это такое.

Найдите веб-страницы, на которых обсуждается проверка гипотез .

1 голос
/ 01 февраля 2010

Посмотрите на ROC-кривые или рабочие характеристики приемника .

Цитировать со страницы Википедии:

В теории обнаружения сигнала приемник рабочая характеристика (ROC), или просто кривая ROC, является графическим сюжетом чувствительности против (1 - специфичность) для двоичного классификатора система как порог ее дискриминации разнообразен. РПЦ также может быть представлены эквивалентно путем построения доля истинных положительных результатов (TPR = истинный положительный показатель) против доли ложных срабатываний (FPR = ложь положительный показатель). Также известный как Относительная рабочая характеристика кривая, потому что это сравнение две рабочие характеристики (TPR & FPR) при изменении критерия. [1]

ROC-анализ предоставляет инструменты для выбора возможно, оптимальные модели и отказаться неоптимальные независимо от (и до уточнения) стоимость контекст или распределение классов. РПЦ анализ связан в прямой и естественный способ анализа затрат / выгод принятия диагностических решений. РПЦ Кривая была впервые разработана инженеры-электрики и радар инженеры во время Второй мировой войны для обнаружение вражеских объектов в бою поля, также известные как сигнал теория обнаружения, и вскоре введен в психологию к ответу для восприятия обнаружения сигналов. ROC-анализ с тех пор был использован в медицине, радиологии и др. области на протяжении многих десятилетий, и это имеет был введен сравнительно недавно в другие области, такие как машинное обучение и интеллектуальный анализ данных.

Это на самом деле проще, чем кажется, и делает сравнение проще - «лучшие» методы будут визуально доминировать в кривой ROC низшего метода.

R имеет несколько пакетов для этого.

0 голосов
/ 12 февраля 2010

Звучит так, как будто вы предсказываете результат того, что принимает значение 0 или 1, верно? Если это так, вы можете посмотреть на обсуждение моделирования дискретного выбора. Слово «выбор» не следует воспринимать слишком буквально. Хотя большинство моделей с дискретным выбором предназначены для объяснения выбора, который люди делают каждый день - покупают тот или иной продукт, садятся на поезд или едут, выбирают тот или иной маршрут на работу - одни и те же модели были успешно применены в гонках на собаках и скачках.

Ключевые тексты на эту тему - Бен-Акива и Лерман и Кеннет Трэйн. Также ищите «Модели Logit» для получения информации по определению и подгонке этих статистических моделей.

0 голосов
/ 01 февраля 2010

Я не уверен, что понимаю ваш вопрос, поэтому этот ответ может оказаться бесполезным для вас.

Вопрос:
Как можно проверить, проверяется ли алгоритм расчета вероятности нахождения системы в данном состоянии в сравнении с реальной вероятностью.

Предположительно, это система, в которой есть одно или несколько вероятностных начальных состояний, которые взаимодействуют для создания конечного состояния, и распределение начальных состояний известно.

Это вопрос, который часто возникает при попытке оценить ошибку в расчетах для научных расчетов.

Ответ:
Одним из способов решения этой проблемы является использование так называемой симуляции Монте-Карло .

Для этого вы выбираете большое количество начальных состояний, распределенных в соответствии с начальными распределениями вероятностей. Для каждого начального состояния вы рассчитываете конечное состояние системы. Глядя на распределение конечных состояний, вы можете определить, вероятно, конечное состояние, имеющее определенное значение.

Теперь вы можете сравнивать результаты моделирования с результатами вашего алгоритма.

Хотя приведенное выше описание может показаться техническим, его довольно легко написать на практике. В Интернете можно найти несколько учебных пособий, хотя большинство из них используют технику Монте-Карло для решения немного другой проблемы.

Пример:

Предположим, вы смотрите на систему, в которую бросают несколько монет. Вы хотите знать вероятность того, что две из всех монет будут сброшены обеими концами вверх.

Вы могли бы написать алгоритм, который бы предсказывал такую ​​возможность, а опциями было бы количество брошенных монет. (Конечно, существует точный расчет для этой вероятности.)

Для симуляции вы сначала настраиваете большое количество начальных состояний. В каждом начальном состоянии вы случайным образом выбираете для каждой монеты, является ли она головой или хвостом. Теперь вы подсчитываете количество результатов, в которых две монеты стоят один на один, и сравниваете это с вашим прогнозом.

...