lmer или биномиальный GLMM - PullRequest
1 голос
/ 19 июня 2020

Я использую смешанную модель в R. Однако мне трудно понять, какой тип модели я должен использовать для имеющихся у меня данных.

Назовем зависимую переменную числом ранних нажатий кнопок в компьютерном эксперименте. Эксперимент состоит из нескольких испытаний. В каждом испытании участник должен нажать кнопку, чтобы отреагировать на цель, появляющуюся на экране. Однако они могут нажать кнопку слишком рано, и это то, что измеряется как конечная переменная. Так, например, участник A может иметь в общей сложности 3 ранних нажатия кнопки в эксперименте в разных испытаниях, тогда как участник B может иметь 15.

В простой модели линейной регрессии с использованием команды lm в R, я бы подумал этот результат - непрерывная числовая переменная. Также ... это число, которое участники набирают в эксперименте. Однако я не пытаюсь запустить линейную регрессию, я пытаюсь запустить смешанную модель со случайными эффектами. Насколько я понимаю, смешанная модель в R состоит в том, что формат данных, из которого берется модель, должен быть структурирован, чтобы показывать каждому участнику в каждом испытании. Когда данные структурированы таким образом на пробном уровне, в моем столбце результатов внезапно появляется много единиц и нулей. Поскольку, конечно, на пробном уровне участники могут случайно нажать кнопку слишком рано, набрав 1 или нет и набрав 0.

Это похоже на то, что следует рассматривать как категоричное. Если да, то будет ли это просматриваться с помощью функции glmer с семейством, установленным на биномиальное?

Спасибо

1 Ответ

4 голосов
/ 24 июня 2020

Как начал Мартин, этот вопрос больше похож на вопрос перекрестной проверки. Но я добавлю сюда свои 2 цента.

Часто возникает вопрос, что вы интересует экспериментом, и есть ли у вас основания полагать, что существует случайный эффект. в вашей модели. В вашем примере у вас есть 2 возможных эффекта, которые могут быть случайными: отдельные лица и испытания. В классических моделях случайных эффектов случайные эффекты часто выбираются на основе ряда простых правил, таких как

  1. Если параметр можно представить как случайный . Это часто относится к уровням, изменяющимся внутри фактора. В этой ситуации и индивидуумы, и испытания могут меняться между экспериментами.
  2. Если вас интересует эффект systemati c (например, насколько А повлиял на В), тогда эффект не является случайным и должен учитываться для фиксированных эффектов. В вашем случае это действительно актуально только в том случае, если имеется достаточное количество испытаний, чтобы увидеть систематические c эффекты у отдельных людей, но тогда можно спросить, насколько значимым этот эффект будет для обобщенных результатов. существуют другие практические рекомендации, но это, по крайней мере, дает нам возможность начать. Следующий вопрос заключается в том, какой эффект нас действительно интересует. В вашем случае это не совсем понятно, но похоже, что вас интересует одно из следующего.
    1. Сколько нажатий кнопок можем ли мы ожидать от любого конкретного испытания
    2. Сколько ранних нажатий кнопок мы можем ожидать от каждого конкретного человека
    3. Насколько велика вероятность того, что раннее нажатие кнопки произойдет во время любого данного испытания

    Для первых 2 вы можете извлечь выгоду из усреднения индивидуального или пробного и использования линейной модели смешанного эффекта с противоположной частью в качестве случайного эффекта. Хотя я бы сказал, что обобщенная линейная модель пуассона , вероятно, лучше подходит, поскольку вы моделируете подсчеты, которые могут быть только положительными . Например. в довольно общем смысле используйте:

    #df is assumed contain raw data
    #1)
    df_agg <- aggregate(. ~ individual, data = df)
    lmer(early_clicks ~ . - individual + (1 |  individual)) #or better: glmer(early_clicks ~ . - individual + (1 | individual), family = poisson, data = df_agg)
    
    #2)
    df_agg <- aggregate(. ~ trial, data = df)
    lmer(early_clicks ~ . - trial+ (1 |  trial)) #or better: glmer(early_clicks ~ . - trial+ (1 | trial), family = poisson, data = df_agg)
    
    #3)
    glmer(early_clicks  ~ . + (1 | trial) + (1 | individual), family = binomial, data = df)
    

    Обратите внимание, что мы могли бы использовать 3), чтобы получить ответы на 1) и 2), используя 3) для прогнозирования вероятностей и использовать их для поиска ожидаемых Early_clicks. Однако теоретически можно показать, что методы оценки, используемые в линейных смешанных моделях, являются точными, в то время как для обобщенных линейных моделей это невозможно. Таким образом, результаты могут незначительно (или весьма существенно) отличаться между всеми моделями. Особенно в 3) количество случайных эффектов может быть довольно значительным по сравнению с количеством наблюдений, и на практике может быть невозможно оценить. принципы, и хотя они могут быть очень кратким введением, они ни в коем случае не являются исчерпывающими. За последние 15-20 лет теория и практическая сторона моделей смешанных эффектов существенно расширились. Если вам нужна дополнительная информация о моделях смешанных эффектов, я бы посоветовал начать с glmm faq side by ben bolker (и других) и ссылок, перечисленных в нем. Для оценки и реализации я предлагаю прочитать примеры пакетов lme4, glmmTMB и, возможно, merTools. glmmTMB - более свежий и интересный проект.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...