В моем наборе данных около 7000 семей, и на каждую семью у меня есть доход родителей и доход их детей. Теперь я хочу провести простую линейную регрессию доходов родителей на доходы своих детей. Однако мне нужно убедиться, что эта регрессия выполняется для каждой семьи.
пример набора данных:
income_parents <- c(1000, 15000, 4500, 7000, 6500, 2500, 3500, 9000, 1200)
income_children <- c(1200, 7500, 2500, 8000, 5500, 7500, 3250, 7500, 850)
family_name <- c("Miller", "Smith", "Clark", "Powell", "Brown", "Jone", "Garcia", "Williams", "Lopez")
df <- data.frame(income_parents, income_children, family_name)
Я запускаю следующую регрессию после группировки по имени семейства:
df_AR <- df %>% group_by(family_name)
AR_1 <- lm(income_children ~ income_parents, data = df_AR)
summary(AR_1)
Теперь мне интересно, учитывает ли функция lm () вложенную структуру данных? Если нет: как я могу изменить свой код, чтобы он учитывался?