Предоставление нескольких групп переменных в функцию для аргументов dplyr в теле - PullRequest
0 голосов
/ 25 апреля 2018

Вот данные:

library(tidyverse)

data <- tibble::tribble(
  ~var1, ~var2, ~var3,  ~var4,    ~var5,
    "a",   "d",   "g",  "hello",    1L,
    "a",   "d",   "h",  "hello",    2L,
    "b",   "e",   "h",  "k",        4L,
    "b",   "e",   "h",  "k",        7L,
    "c",   "f",   "i",  "hello",    3L,
    "c",   "f",   "i",  "hello",    4L
  )

и векторы, которые я хочу использовать:

filter_var <- c("hello")
groupby_vars1 <- c("var1", "var2", "var3")
groupby_vars2 <- c("var1", "var2")
joinby_vars1 <- c("var1", "var2")
joinby_vars2 <- c("var1", "var2", "var3")

2-й и 5-й и 3-й и 4-й векторы одинаковы, но, пожалуйста, предположите, что они разные и сохраните их как разные векторы.

Теперь я хочу создать универсальную функцию, в которой я могу получать данные и эти векторы для получения результатов.

my_fun <- function(data, filter_var, groupby_vars1,groupby_vars2, joinby_vars1, joinby_vars2) {

  data2 <- data %>% filter(var4 == filter_var) 

  data3 <- data2 %>%
    group_by(groupby_vars1) %>% 
    summarise(var6 = sum(var5))

  data4 <- data3 %>%
    ungroup() %>%
    group_by(groupby_vars2) %>% 
    summarise(avg = mean(var6,na.rm = T))

  data5 <- data3 %>% left_join(data4, by = joinby_vars1)

  data6 <- data %>% left_join(data5, by = joinby_vars2)
}

Проблема заключается в предоставлении нескольких векторов нескольких переменных в функцию, которая будет использоваться в качестве аргументов dplyr в теле. Я попытался заглянуть в http://dplyr.tidyverse.org/articles/programming.html,, но не смог решить вышеуказанную проблему.

1 Ответ

0 голосов
/ 25 апреля 2018

group_by не может принимать groupby_vars... строки в качестве входных данных. Вам нужно использовать rlang::syms(), чтобы превратить строковой вектор в переменные, а затем использовать !!!, чтобы заключить их в кавычки, чтобы их можно было оценить внутри group_by

library(tidyverse)
library(rlang)

data <- tibble::tribble(
  ~var1, ~var2, ~var3,  ~var4,    ~var5,
  "a",   "d",   "g",  "hello",    1L,
  "a",   "d",   "h",  "hello",    2L,
  "b",   "e",   "h",  "k",        4L,
  "b",   "e",   "h",  "k",        7L,
  "c",   "f",   "i",  "hello",    3L,
  "c",   "f",   "i",  "hello",    4L
)

filter_var <- c("hello")
groupby_vars1 <- c("var1", "var2", "var3")
groupby_vars2 <- c("var1", "var2")
joinby_vars1  <- c("var1", "var2")
joinby_vars2  <- c("var1", "var2", "var3")

my_fun <- function(data, filter_var, 
                   groupby_vars1, groupby_vars2, 
                   joinby_vars1,  joinby_vars2) {

  groupby_vars1 <- syms(groupby_vars1)
  groupby_vars2 <- syms(groupby_vars2)

  data2 <- data %>% 
    filter(var4 == filter_var) 

  data3 <- data2 %>%
    group_by(!!! groupby_vars1) %>% 
    summarise(var6 = sum(var5))

  data4 <- data3 %>%
    ungroup() %>%
    group_by(!!! groupby_vars2) %>% 
    summarise(avg = mean(var6, na.rm = TRUE))

  data5 <- data3 %>% 
    left_join(data4, by = joinby_vars1)

  data6 <- data %>% 
    left_join(data5, by = joinby_vars2)

  return(data6)
}

my_fun(data, filter_var, 
       groupby_vars1, groupby_vars2, 
       joinby_vars1,  joinby_vars2)

#> # A tibble: 6 x 7
#>   var1  var2  var3  var4   var5  var6   avg
#>   <chr> <chr> <chr> <chr> <int> <int> <dbl>
#> 1 a     d     g     hello     1     1   1.5
#> 2 a     d     h     hello     2     2   1.5
#> 3 b     e     h     k         4    NA  NA  
#> 4 b     e     h     k         7    NA  NA  
#> 5 c     f     i     hello     3     7   7  
#> 6 c     f     i     hello     4     7   7

Другой способ сделать это: проанализировать вектор строки, используя parse_exprs снаружи, а затем заключить их в кавычки внутри функции. Смотри также это

my_fun2 <- function(data, filter_var, 
                   groupby_vars1, groupby_vars2, 
                   joinby_vars1,  joinby_vars2) {

  data2 <- data %>% 
    filter(var4 == filter_var) 

  data3 <- data2 %>%
    group_by(!!! groupby_vars1) %>% 
    summarise(var6 = sum(var5))

  data4 <- data3 %>%
    ungroup() %>%
    group_by(!!! groupby_vars2) %>% 
    summarise(avg = mean(var6, na.rm = TRUE))

  data5 <- data3 %>% 
    left_join(data4, by = joinby_vars1)

  data6 <- data %>% 
    left_join(data5, by = joinby_vars2)

  return(data6)
}

my_fun2(data, filter_var, 
        parse_exprs(groupby_vars1), parse_exprs(groupby_vars2), 
        joinby_vars1,  joinby_vars2) 

identical(my_fun(data, filter_var, 
                 groupby_vars1, groupby_vars2, 
                 joinby_vars1,  joinby_vars2),
          my_fun2(data, filter_var, 
                  parse_exprs(groupby_vars1), parse_exprs(groupby_vars2), 
                  joinby_vars1,  joinby_vars2))

[1] TRUE                      

Создано в 2018-04-24 пакетом представ. (v0.2.0).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...