Как рассчитать авторегрессию с отсутствующими значениями для разных фамилий в одном поколении? - PullRequest
0 голосов
/ 11 ноября 2019

У меня есть набор данных, состоящий из фамилий, лет и значений y. Моя цель - проанализировать, зависит ли значение y от соответствующего значения y предыдущего поколения. К сожалению, у меня нет значения y для каждой фамилии в каждом поколении.

В качестве примера набора данных вы можете взять следующее:

set.seed(700)
df_1 <- data.frame(year = c(1700, 1700, 1700, 1700, 1730, 1730, 1730, 1730, 1760, 1760, 1760, 1760, 1790, 1790, 1790, 1790, 1820, 1820, 1820, 1820), generation = c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5), surname = c("Miller", "NA", "Smith", "Garcia", "Miller", "Jordan", "Smith", "Garcia", "Miller", "Jordan", "NA", "Garcia", "Miller", "Jordan", "Smith", "NA", "NA", "Jordan", "Smith", "Garcia"), y=runif(20))

Я запускаю следующую регрессию:

fitted_models = df_1 %>% group_by(surname) %>% do(model = lm(y ~ lag(y, n=1, order_by = year), data = df_1))

Теперь у меня есть три связанных вопроса:

(1) Как я могу учесть не относящиеся к группе эффекты (например, фиксированные эффекты, специфичные для поколения)?

(2) Как мне относиться к NA-значениям?

(3) Учитывает ли эта регрессия все наблюдения с соответствующим наблюдением предыдущего поколения или только сравнение между первым и вторым поколением?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...