Первый пост!
Я биолог с ограниченным опытом в прикладной статистике, и Р. В основном знаю достаточно, чтобы быть опасным, поэтому я был бы признателен, если бы кто-то мог подтвердить / опровергнуть, что я на правильном пути.
Мои наборы данных состоят из данных подсчета (посещения диких животных водяных скважин) в качестве переменной отклика и нескольких непрерывных переменных предиктора (измерения окружающей среды).
Во-первых, я исключил мультиколлинеарность, опустив несколько переменных-предикторов. Во-вторых, я исследовал распределение переменной ответа. Изначально это выглядело Пуассоном. Однако точный критерий Пуассона вернулся как значимый, и дисперсия переменной отклика составила около 200 со средним значением около 9, то есть перераспределение. В связи с этим я решил двигаться дальше с отрицательными биномиальными и квазипуассоновыми регрессиями. Оба выбрали одну и ту же модель, остатки которой находятся в нормальном распределении. Кроме того, график остатков по прогнозным значениям является непредвзятым и гомоскедастичным.
Вопросы:
1. Я выбрал правильные регрессии для моделирования этих данных?
2. Есть ли дополнительные предположения о NBR и QpR, которые мне нужно проверить? Как мне / где я могу узнать о том, как это сделать?
3. Правильно ли я проверил наличие избыточной дисперсии? Есть ли разница в сравнении среднего значения и дисперсии в сравнении с условным средним значением и дисперсией переменной ответа?
4. Хотя NBR и QpR называют одной и той же моделью, есть ли способ выбрать, какой подход лучше?
5. Я хотел бы в конечном итоге опубликовать. Есть ли еще анализы, которые я должен выполнить на выбранной модели?