Вложенная цепочка труб в dplyr / left_join - PullRequest
0 голосов
/ 13 июня 2018

В процессе получения сгруппированной переменной задержки (что невозможно только при использовании lag), предлагаемое решение состояло в том, чтобы извлечь данные, выделить отдельные строки, а затем снова присоединить их.

Я предпочитаю делать это, не создавая промежуточные объекты, и хотел бы сделать это посреди цепочки.Однако, похоже, это не работает так, как я ожидал, и проблема, похоже, заключается в некотором взаимодействии между использованием . и вложенной цепочкой внутри left_join.

require(tidyverse)
#> Loading required package: tidyverse
df <- data.frame(Team = c("A", "A", "A", "A", "B", "B", "B", "C", "C", "D", "D"),
                 Date = c("2016-05-10","2016-05-10", "2016-05-10", "2016-05-10",
                          "2016-05-12", "2016-05-12", "2016-05-12",
                          "2016-05-15","2016-05-15",
                          "2016-05-30", "2016-05-30"), 
                 Points = c(1,4,3,2,1,5,6,1,2,3,9)
)


#This works:
df %>% left_join(x = ., y = df %>% 
                   distinct(Team, Date) %>% 
                   mutate(Date_Lagged = lag(Date)))
#> Joining, by = c("Team", "Date")
#>    Team       Date Points Date_Lagged
#> 1     A 2016-05-10      1        <NA>
#> 2     A 2016-05-10      4        <NA>
#> 3     A 2016-05-10      3        <NA>
#> 4     A 2016-05-10      2        <NA>
#> 5     B 2016-05-12      1  2016-05-10
#> 6     B 2016-05-12      5  2016-05-10
#> 7     B 2016-05-12      6  2016-05-10
#> 8     C 2016-05-15      1  2016-05-12
#> 9     C 2016-05-15      2  2016-05-12
#> 10    D 2016-05-30      3  2016-05-15
#> 11    D 2016-05-30      9  2016-05-15

#And this works:
df %>% left_join(x = ., y = .)
#> Joining, by = c("Team", "Date", "Points")
#>    Team       Date Points
#> 1     A 2016-05-10      1
#> 2     A 2016-05-10      4
#> 3     A 2016-05-10      3
#> 4     A 2016-05-10      2
#> 5     B 2016-05-12      1
#> 6     B 2016-05-12      5
#> 7     B 2016-05-12      6
#> 8     C 2016-05-15      1
#> 9     C 2016-05-15      2
#> 10    D 2016-05-30      3
#> 11    D 2016-05-30      9

#This doesn't work despite the fact that `.` is df.  
df %>% left_join(x = ., y = . %>% 
                   distinct(Team, Date) %>% 
                   mutate(Date_Lagged = lag(Date)))
#> Error in UseMethod("tbl_vars"): no applicable method for 'tbl_vars' applied to an object of class "c('fseq', 'function')"



#Desired output
distinct(df, Team, Date) %>%
  mutate(Date_Lagged = lag(Date)) %>%
  right_join(., df) %>%
  select(Team, Date, Points, Date_Lagged)
#> Joining, by = c("Team", "Date")
#>    Team       Date Points Date_Lagged
#> 1     A 2016-05-10      1        <NA>
#> 2     A 2016-05-10      4        <NA>
#> 3     A 2016-05-10      3        <NA>
#> 4     A 2016-05-10      2        <NA>
#> 5     B 2016-05-12      1  2016-05-10
#> 6     B 2016-05-12      5  2016-05-10
#> 7     B 2016-05-12      6  2016-05-10
#> 8     C 2016-05-15      1  2016-05-12
#> 9     C 2016-05-15      2  2016-05-12
#> 10    D 2016-05-30      3  2016-05-15
#> 11    D 2016-05-30      9  2016-05-15

Создано в 2018-06-12 пакетом Представить (v0.2.0).

Ответы [ 3 ]

0 голосов
/ 13 июня 2018

Чтобы ваш код работал, вам понадобится фигурная скобка вокруг аргумента y, как показано ниже

  df %>% left_join(x = ., y = {.} %>% 
                   distinct(Team, Date) %>% 
                   mutate(Date_Lagged = lag(Date)))

Joining, by = c("Team", "Date")
   Team       Date Points Date_Lagged
1     A 2016-05-10      1        <NA>
2     A 2016-05-10      4        <NA>
3     A 2016-05-10      3        <NA>
4     A 2016-05-10      2        <NA>
5     B 2016-05-12      1  2016-05-10
6     B 2016-05-12      5  2016-05-10
7     B 2016-05-12      6  2016-05-10
8     C 2016-05-15      1  2016-05-12
9     C 2016-05-15      2  2016-05-12
10    D 2016-05-30      3  2016-05-15
11    D 2016-05-30      9  2016-05-15

oe, вы можете просто сделать

df %>% left_join(df%>% 
                   distinct(Team, Date) %>% 
                   mutate(Date_Lagged = lag(Date)))
0 голосов
/ 15 июня 2018

Хотя это не ответ на мой вопрос (Onyambo предоставил это!), Я хотел бы поделиться, что нашел альтернативный способ сделать то же самое.В основном вы используете group_by() и nest(), чтобы раздавить тибл и убрать повторяющиеся перемены, сделать задержку, и unnest().

df %>% 
  group_by(Team, Date) %>% 
  nest() %>% 
  mutate(Date_Lagged = lag(Date)) %>% 
  unnest()
#> # A tibble: 11 x 4
#>    Team  Date       Date_Lagged Points
#>    <fct> <fct>      <fct>        <dbl>
#>  1 A     2016-05-10 <NA>             1
#>  2 A     2016-05-10 <NA>             4
#>  3 A     2016-05-10 <NA>             3
#>  4 A     2016-05-10 <NA>             2
#>  5 B     2016-05-12 2016-05-10       1
#>  6 B     2016-05-12 2016-05-10       5
#>  7 B     2016-05-12 2016-05-10       6
#>  8 C     2016-05-15 2016-05-12       1
#>  9 C     2016-05-15 2016-05-12       2
#> 10 D     2016-05-30 2016-05-15       3
#> 11 D     2016-05-30 2016-05-15       9

Создано в 2018-06-14 представьте пакет (v0.2.0).

0 голосов
/ 13 июня 2018

Если вы не возражаете поменять местами вложенность труб для вложения функций, это достигнет вашей цели:

df %>% left_join(mutate(distinct(., Team, Date), Date_Lagged = lag(Date)))

output:

Joining, by = c("Team", "Date")
   Team       Date Points Date_Lagged
1     A 2016-05-10      1        <NA>
2     A 2016-05-10      4        <NA>
3     A 2016-05-10      3        <NA>
4     A 2016-05-10      2        <NA>
5     B 2016-05-12      1  2016-05-10
6     B 2016-05-12      5  2016-05-10
7     B 2016-05-12      6  2016-05-10
8     C 2016-05-15      1  2016-05-12
9     C 2016-05-15      2  2016-05-12
10    D 2016-05-30      3  2016-05-15
11    D 2016-05-30      9  2016-05-15
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...