Как рассчитываются двоичные пропорции в GLM, когда x является непрерывной переменной? - PullRequest
0 голосов
/ 04 октября 2019

Я хожу по кругу о том, как лучше всего кодировать мои данные, исследуя многочисленные варианты биномиальных распределений. Я новичок во всем этом и все еще работаю над тем, что все значит ...

Что меня смущает: если x (в моем случае это представляет время) - это непрерывная переменная, GLM с формулой: y~ х рассчитывает пропорцию 1 за весь период времени?

Общая цель состоит в том, чтобы использовать данные о наличии / отсутствии за 20 лет для анализа того, увеличиваются или уменьшаются с течением времени более 20 отдельных видов, используя термин, называемый «уровнем отчетности»:

Количество обследований видов, зарегистрированных в этом году / Общее количество обследований в этом году .

У меня есть «широкая» матрица, которая включает следующие заголовки столбцов:

surveys no. (integar) , Start_date (POSIXct), Year (integer), Species1. species2, species3 .... 

ПРИМЕЧАНИЕ Обследования являются случайными и не все повторяются в течение года. Я считаю, что здесь много нулей (так как некоторые виды встречаются реже, чем другие). У меня также есть другие переменные, включая «регион», который я использую для подмножества данных.

Моя текущая модель выглядит следующим образом:

model_1<-glm(y~x, data=Data, family=binomial)

, где у - наличие / отсутствиеДанные (0,1) для 'видов N' и х - это переменная времени ('Start_date').

То, что я на самом деле хочу, это получить долю от 1 в год. Следовательно, я добавляю «Год» в качестве веса (или смещения) или меняю время на категориальную переменную («Год»)?

Бонусный вопрос!?! Есть липростой способ добавлять категории к видам и моделировать их по группам, например, диета = насекомые, фрукты, позвоночные и т. д.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...