Оценка максимального правдоподобия распределения Пуассона? - PullRequest
2 голосов
/ 17 мая 2011

У меня есть таблица с наблюдениями (x, y), и мне нужно оценить среднее распределение Пуассона, которое более близко им напоминает.Кажется, что R и Octave могут сделать это в Linux, но мне было интересно, есть ли мультиплатформенный способ сделать это.Я могу связать что-нибудь с программой, но я не могу попросить установить что-либо для ее запуска.

Я попытался найти алгоритм, чтобы сделать это сам, и не смог найти его, поэтому я не знаючто делать.

Для записи я нашел простой алгоритм, который делал бы это, в основном суммируя все значения и деля на количество примеров, но он терпел неудачу даже для тривиального примера, взятого непосредственно изbook.

Пример:

requisitions per day : absolute frequency (days) : relative frequency
 8 :  2 : 0.016
 9 :  4 : 0.033
10 :  6 : 0.050
11 :  8 : 0.066
12 : 10 : 0.083
13 : 12 : 0.100
14 : 13 : 0.108
15 : 14 : 0.116
16 : 12 : 0.100
17 : 10 : 0.083
18 :  9 : 0.075
19 :  7 : 0.058
20 :  5 : 0.041
21 :  3 : 0.025
22 :  2 : 0.016
23 :  2 : 0.016
24 :  1 : 0.008

Среднее значение для распределения Пуассона должно быть 15 (согласно книге, где я получил пример).Метод, который я сказал выше и в одном из ответов дает мне 16. Используя сумму квадратов евклидовых расстояний, я также обнаружил, что Пуассон со средним 15 ближе к данным, чем тот, у которого среднее 16.

1 Ответ

4 голосов
/ 17 мая 2011

MLE среднего значения - это просто среднее значение выборки. Смотрите Википедию:

http://en.wikipedia.org/wiki/Poisson_distribution#Maximum_likelihood

Просто усредните ваш вектор данных.

Обновление : сейчас я расширяю этот ответ на основе только что добавленных к вопросу примеров данных.

Моя интерпретация данных выборки такова:

reqs-per-day   frequency
 8             2
 9             4
10             6

означает, что было два дня, когда количество заявок на каждый день составляло 8. И четыре дня, когда количество заявок составляло 9. Поэтому я буду считать, что данные эквивалентны:

8,8,9,9,9,9,10,10,10,10,10,10,...

, где каждая запись в этом списке соответствует одному дню. Порядок этого списка не имеет значения. Я думаю, вы должны усреднить этот список.

Сумма вашего частоты поля равна 120. Полагаю, это означает, что в эксперименте было всего 120 дней.

...