Я анализирую данные о бюджетах деятельности орангутана (то есть время, которое они проводят, выполняя различные действия в течение дня). Я делю их деятельность на четыре основных вида деятельности: кормление, отдых, путешествия и другие (все это в сумме соответствует их активному периоду в течение дня). Переменная ответа - это количество минут, потраченных на выполнение рассматриваемой деятельности (minutesin24hr
), а пояснительные переменные - Age_Sex
и fire_time
(оба являются категориальными). У меня случайный эффект идентификатора орангутана (Ou_name
), поэтому я подгоняю смешанные модели к моим данным. Я моделирую данные для каждого вида деятельности отдельно, поэтому у меня есть отдельные модели для кормления, отдыха, путешествий и других. Вот пример набора данных для кормления (путешествия, отдых и другие имеют одинаковый формат):
Follow_num Ou_name Date Month fire_time Age_Sex Primary_Act AP_obs minutesin24hr Perc_of_waking_day Perc_of_24hr
1 2029 Teresia 2011-10-04 Oct-11 pre SAF Feeding 625 310 49.60 21.53
2 2030 Teresia 2011-10-05 Oct-11 pre SAF Feeding 610 285 46.72 19.79
3 2032 Teresia 2011-10-09 Oct-11 pre SAF Feeding 620 340 54.84 23.61
4 2034 Teresia 2011-10-11 Oct-11 pre SAF Feeding 670 405 60.45 28.13
5 2048 Salvador 2011-12-06 Dec-11 pre FM Feeding 625 510 81.60 35.42
6 2049 Salvador 2011-12-07 Dec-11 pre FM Feeding 610 510 83.61 35.42
Критическое соображение, которое у меня есть, заключается в том, что есть общее время, в течение которого орангутан бодрствует (« активный период ': AP_obs
). Поэтому, чтобы исследовать изменения в том, сколько времени они проводят, питаясь, отдыхая, путешествуя, мне нужно смоделировать это как своего рода пропорцию активного периода. Мне посоветовали использовать смещение, которое, если я правильно понимаю, по существу преобразует данные подсчета в скорость. Тем не менее, я немного озадачен тем, как правильно использовать смещение. Набор данных, который я имею для активности = кормления, показывает нормальное распределение количества минут, потраченных на кормление, поэтому я хотел бы использовать lmer, а не glmer. После выбора модели я обнаружил, что модель с лучшей поддержкой была:
model1 <- lmer(minutesin24hr ~ Age_Sex + fire_time + (1|Ou_name), data = Feed_red, offset = AP_obs, REML = TRUE, na.action = "na.fail")
Однако сейчас я думаю, что способ, которым я использовал смещение, неправильный. Вся литература, которую я нашел, использует примеры glmer / glm с распределением Пуассона и логарифмом переменной смещения. Можно ли использовать смещение в lmer или переменную отклика лучше преобразовать в пропорцию? т.е.:
lmer.model <- lmer(minutesin24hr/AP_obs ~ Age_Sex * fire_time + (1|Ou_name), data = Feed_red)
Что касается наборов данных о перемещении и отдыхе, переменная отклика распределяется ненормально, но я могу преобразовать ее, чтобы сделать ее нормальной. В этих случаях было бы лучше моделировать как lmer с преобразованным смещением (если возможно?) Или glmer с семейством Пуассона и offset = log (активный период)?
Большое спасибо заранее!