Обобщение (и максимизация) данных для многоуровневой модели смешанных эффектов - PullRequest
0 голосов
/ 29 мая 2019

Я смотрю на взаимосвязь расходов школьного округа с уровнем преступности городов / поселков в этом школьном округе, особенно в период с 2000 по 2017 год. Есть примерно 14 000 школьных округов (хотя они варьируются от ~ 15 000 в 2000 году до ~ 13 500 в 2017 году. Данные о преступности - DV и по городам.

Ковариаты / фиксированные эффекты включают плотность населения (город), население (город), правоохранительную деятельность в целом (город), долю детей, живущих в бедности (школьный округ или округ), уровень безработицы (округ), историю голосования / разницу между проп проголосовал за дем. против респ. (графство) на душу населения вкл. (графство), год и расходы на ученика (школьный округ)

Проблема в том, что нет аккуратной структуры вложенности; К сожалению, учащиеся в одном городе могут посещать несколько школьных округов, а школьные округа не вписываются в округа (они перекрываются, поэтому один школьный округ может обслуживать несколько округов). Другими словами, существует примерно 13 500 школьных округов, но если посмотреть на школьные округа как на функцию округа, то ~ 19 000 школьных округов (то есть примерно 5500 перекрывающихся школьных округов).

Не исключая NA из моего DV (преступления), существуют миллионы ценностей. Итого, у меня 133 000 городов / поселков, сообщающих о преступности за этот период 17 лет. Однако, так как города / поселки перекрываются с районами, у меня будет в общей сложности 1 220 000 наблюдений (даже после исключения NA для городов / поселков, которые не сообщали о преступности).

Я использую многоуровневую смешанную модель, и мне интересно, включает ли моя модель (и мою структуру группировки и обобщения данных) наибольшее количество данных и существует ли одна структура случайных эффектов (см. Ниже) ) это более принципиально, чем другие.

Если я сгруппирую по штатам, округам и городам и подведу итоги по среднему значению, я получу городские значения расходов студентов, но все они будут значениями расходов студентов в округе (хотя у каждого будут разные значения преступности) ). Если я посмотрю на разные значения штата, округа и города за все годы, я получу 80300 разных значений города / городка, которые затем проанализирую в R через glmer (lme4).

Я запустил много моделей, но использовал структуры со случайными эффектами (в зависимости от того, положительна ли модель и может ли она сходиться:

(year|CITY)+(1|COUNTY/STATE)
(1|CITY) + (1|COUNTY) + (1|STATE)
(year|CITY) + (1|COUNTY) + (1|STATE)
(year|COUNTY)
(1|COUNTY/STATE)

glmer.law_enforcement.type <- glmer(COUNT ~ CRIME + cent.log.pop + cent.log.pop.dens + year + cent.log.per.cap + diff.dem + cent.log.enforcement + cent.EXP_STUDENT + (year|COUNTY_ID), family = "poisson", control = glmerControl(optimizer = "nloptwrap", calc.derivs = FALSE), total.years.v.p, na.action = "na.exclude")

Переменные (по порядку) = тип преступления; Население; плотность населения; год (числовой); доход на душу населения; история голосования; правоохранительные органы; Расходы студентов (/ 1000).

В зависимости от моей структуры случайных эффектов модель будет в основном сходиться и работать нормально, но иногда я получу следующее предупреждение, поэтому я изменю свою структуру случайных эффектов:

Cholmod warning 'not positive definite' at file:../Cholesky/t_cholmod_rowfac.c, line 431Cholmod warning 'not positive definite' at file:../Cholesky/t_cholmod_rowfac.c, line 431Error in pwrssUpdate(pp, resp, tol = tolPwrss, GQmat = GQmat, compDev = compDev,  : 
  (maxstephalfit) PIRLS step-halvings failed to reduce deviance in pwrssUpdate
...