Оценка вероятностей в R - PullRequest
       24

Оценка вероятностей в R

1 голос
/ 25 декабря 2010

Я пытаюсь проанализировать некоторые вероятностные данные с помощью R. Имеющиеся у меня данные дают частоту определенных результатов ( A и B ) для данной вероятности p и мне нужна модель, которая позволит мне оценить p только по частотным данным.

Сейчас я просто выполняю линейную регрессию (что-то вроде lm(p ~ A + B))который работает более или менее, но я знаю, что это не «правильный способ» сделать это.В частности, моя текущая модель будет, для некоторых значений A или B , возвращать значения, которые не лежат в пределах интервала [0, 1], т.е. которые не действительны для вероятности.

Я почти уверен, что есть способ сделать это, но я не могу на всю жизнь понять, как называлась модель или как запустить ее в R. Кто-нибудь может дать мне подсказку?

Ответы [ 2 ]

3 голосов
/ 25 декабря 2010

Вы не можете просто запустить lm(p ~ A + B), поскольку нет модели , связывающей ваши переменные подсчета A и B с вероятностями: lm() соответствует линейной регрессии для модели неограниченная действительная переменная как функция линейной комбинации вещественных переменных (где вы можете подставить переменные счетчика).

Самая простая модель вероятностей - это логистическая регрессия , которая использует логистическую функцию для преобразования неограниченных вещественных значений в ограниченный интервал [0,1]. Вы можете подогнать логистическую регрессию в R, используя glm(), а также ряд дополнительных пакетов для особых случаев, см., Например, этот поиск rseek.org для логистической регрессии .

Кроме того, CrossValidated - хороший сайт для моделирования таких вопросов, как этот.

0 голосов
/ 25 декабря 2010

Регрессия Пуассона, реализованная в R с помощью функции glm с family = "poisson" (с лог-линией по умолчанию), оценила бы линейно-линейную модель, которая очень непосредственно может использоваться для оценки вероятностей. В зависимости от того, как вы настроили ввод набора данных, вы можете получить либо пропорции, либо скорости по выражению (linear.predictor). Это было бы немного похоже на текущее использование lm (), настроенного как lm (log (p) ~ A + B), но ошибки больше подходят для подсчета. Часть , которую Zeileis, el al, сделал для пакета pscl , в настоящее время особенно хороша в контексте других методов анализа данных счета (см. Раздел 3.2):

...