dplyr / tidyr объединяет два столбца в один именованный столбец списка - PullRequest
1 голос
/ 18 июня 2019

Представьте себе этот фрейм данных:

df <- tibble(
  key = c(rep(1, 3), rep(2, 3), rep(3, 3)),
  date = rep(Sys.Date(), 9),
  hour = rep(c('00', '01', '02'), 3),
  value = rep(c(8, 9, 10), 3)
  )

Я хочу вывод, чтобы столбец сводной группы представлял собой именованный список часов и значений. Так же, как если бы я делал это для каждой группы:

as.list(setNames(df$value[df$key == 1], df$hour[df$key == 1]))
$`00`
[1] 8

$`01`
[1] 9

$`02`
[1] 10

Что-то в этом роде, но то, что действительно работает:

df %>%
  group_by(key, date) %>%
  summarise(
    daily_value = sum(value),
    hourly_values = as.list(setNames(value, hour))
    )

Открыт для nest или аналогичного раствора тидиров.

РЕДАКТИРОВАТЬ: Выходные данные должны быть такими же, как здесь:

outputDf <- df %>%
  group_by(key, date) %>%
  summarise(daily_value = sum(value))

outputDf$hourly_value <- list(
  as.list(setNames(df$value[df$key == 1], df$hour[df$key == 1])),
  as.list(setNames(df$value[df$key == 2], df$hour[df$key == 2])),
  as.list(setNames(df$value[df$key == 3], df$hour[df$key == 3]))
  )

outputDf
# A tibble: 3 x 4
# Groups:   key [?]
    key       date daily_value hourly_value
  <dbl>     <date>       <dbl>       <list>
1     1 2019-06-18          27   <list [3]>
2     2 2019-06-18          27   <list [3]>
3     3 2019-06-18          27   <list [3]>

outputDf$hourly_value
[[1]]
[[1]]$`00`
[1] 8

[[1]]$`01`
[1] 9

[[1]]$`02`
[1] 10


[[2]]
[[2]]$`00`
[1] 8

[[2]]$`01`
[1] 9

[[2]]$`02`
[1] 10


[[3]]
[[3]]$`00`
[1] 8

[[3]]$`01`
[1] 9

[[3]]$`02`
[1] 10

Ответы [ 2 ]

2 голосов
/ 18 июня 2019

Нам нужно заключить в list, поскольку summarise ожидает вернуть по одной строке на группу. С as.list это будет list с length, равным количеству строк в группе. Оборачивая его как list, мы гарантируем, что длина равна 1 для summarise

library(dplyr)  
df %>% 
   group_by(key, date) %>% 
   summarise(daily_value = sum(value), 
              hourly_values = list(as.list(setNames(value, hour))))
0 голосов
/ 18 июня 2019
df <- tibble(
  key = c(rep(1, 3), rep(2, 3), rep(3, 3)),
  date = rep(Sys.Date(), 9),
  hour = rep(c('00', '01', '02'), 3),
  value = rep(c(8, 9, 10), 3)
)

df2 <- df %>% 
  group_by(key, date) %>% 
  mutate(daily_value = sum(value),
  hourly_value = as.list(value)) #create a list column

names(df2$hourly_value) <- df$hour #give names to the list column
...