Используйте apply () для итерации моделей линейной регрессии через несколько зависимых переменных - PullRequest
0 голосов
/ 14 января 2019

Я вычисляю выходные данные модели для линейной регрессии для зависимой переменной с 45 различными значениями идентификатора. Как я могу использовать код tidy (dplyr, apply и т. Д.) Для достижения этой цели?

У меня есть набор данных с тремя переменными data = c(id, distance, actPct) такой, что id == 1:45; -10 <= <code>distance <= 10; 0 <= <code>actsPct <= 1. </p>

Мне нужно запустить регрессию model0n для каждого значения id, чтобы model0n вставил новый тиббл / df. Я завершил это для одной регрессии:

model01 <- data %>% 
filter(id == 1) %>%
filter(distance < 1) %>%
filter(distance > -4)
model01 <- lm(data = model01, actPct~distance)

Пример данных

set.seed(42)
id <- as.tibble(sample(1:45,100,replace = T))
distance <- as.tibble(sample(-4:4,100,replace = T))
actPct <- as.tibble(runif(100, min=0, max=1))
data01 <- bind_cols(id=id, distance=distance, actPct=actPct)
attr(data01, "col.names") <- c("id", "distance", "actPct")

Я ожидаю новый tibble или dataframe, который имеет model01: model45, поэтому я могу поместить все результаты регрессии в одну таблицу.

1 Ответ

0 голосов
/ 14 января 2019

Вы можете использовать group_by, nest и mutate с map из tidyverse для выполнения этого:

data01 %>% 
  group_by(id) %>% 
  nest() %>% 
  mutate(models = map(data, ~ lm(actPct ~ distance, data = .x)))

# A tibble: 41 x 3
#       id data             models  
#    <int> <list>           <list>  
#  1    42 <tibble [3 x 2]> <S3: lm>
#  2    43 <tibble [4 x 2]> <S3: lm>
#  3    13 <tibble [2 x 2]> <S3: lm>
#  4    38 <tibble [4 x 2]> <S3: lm>
#  5    29 <tibble [2 x 2]> <S3: lm>
#  6    24 <tibble [5 x 2]> <S3: lm>
#  7    34 <tibble [5 x 2]> <S3: lm>
#  8     7 <tibble [3 x 2]> <S3: lm>
#  9    30 <tibble [2 x 2]> <S3: lm>
# 10    32 <tibble [2 x 2]> <S3: lm>
# ... with 31 more rows

См. Также главу в R для R для Data Science о многих моделях: https://r4ds.had.co.nz/many-models.html

Данные

set.seed(42)
id <- sample(1:45, 100, replace = T)
distance <- sample(-4:4, 100, replace = T)
actPct <- runif(100, min = 0, max = 1)
data01 <- tibble(id = id, distance = distance, actPct = actPct)
...