Я хожу по кругу о том, как лучше всего кодировать мои данные, исследуя многочисленные варианты биномиальных распределений. Я новичок во всем этом и все еще работаю над тем, что все значит ...
Что меня смущает: если x (в моем случае это представляет время) - это непрерывная переменная, GLM с формулой: y~ х рассчитывает пропорцию 1 за весь период времени?
Общая цель состоит в том, чтобы использовать данные о наличии / отсутствии за 20 лет для анализа того, увеличиваются или уменьшаются с течением времени более 20 отдельных видов, используя термин, называемый «уровнем отчетности»:
Количество обследований видов, зарегистрированных в этом году / Общее количество обследований в этом году .
У меня есть «широкая» матрица, которая включает следующие заголовки столбцов:
surveys no. (integar) , Start_date (POSIXct), Year (integer), Species1. species2, species3 ....
ПРИМЕЧАНИЕ Обследования являются случайными и не все повторяются в течение года. Я считаю, что здесь много нулей (так как некоторые виды встречаются реже, чем другие). У меня также есть другие переменные, включая «регион», который я использую для подмножества данных.
Моя текущая модель выглядит следующим образом:
model_1<-glm(y~x, data=Data, family=binomial)
, где у - наличие / отсутствиеДанные (0,1) для 'видов N' и х - это переменная времени ('Start_date').
То, что я на самом деле хочу, это получить долю от 1 в год. Следовательно, я добавляю «Год» в качестве веса (или смещения) или меняю время на категориальную переменную («Год»)?
Бонусный вопрос!?! Есть липростой способ добавлять категории к видам и моделировать их по группам, например, диета = насекомые, фрукты, позвоночные и т. д.