Question

У меня есть следующий фрейм данных:

df = data.frame(a = c(1,1,3,2,2), b=6:10)
##  a    b
##  1    6
##  1    7
##  3    3
##  2    9
##  2    10

Я хочу анализировать данные по группам (a является параметром группировки), но вместо обычного (например, каждое значение указывает группу строк,и группы не пересекаются) Мне нужны "кумулятивные группы".то есть для значения a = i группа должна содержать все строки, в которых a <= i.Это не непересекающиеся группы, но все же я хочу обобщить каждую группу отдельно. </p>

Так, например, если для каждой группы я хочу получить среднее значение b, результат будет:

##    a    mean_b
##    1    6.5
##    2    8
##    3    7

обратите внимание, что в реальном сценарии, лежащем в основе этого упрощенного примера, я не могу отдельно анализировать непересекающуюся группу, а затем объединять соответствующие группы.функция суммирования должна быть «осведомлена» обо всех строках в этой группе, чтобы выполнить вычисление.

Поэтому, конечно, я могу использовать некоторые функции применения и вычислить вещи старым добрым способом, и сделать новый dfиз этого, но я ищу dplyr / tidyverse-подобные функции, чтобы сделать это.

есть предложения?

Moody_Mudskipper · Answer 1 · 04 декабря 2018

Я бы сделал это следующим образом:

df %>% 
  arrange(a) %>%
  map_dfr(seq_along(as <- unique(.$a)),
          ~filter(.y, a %in% as[1:.]),.y = ., .id = "a") %>%
  group_by(a = meta_group) %>%
  summarise(b = mean(b))

# # A tibble: 3 x 2
# a     b
# <chr> <dbl>
# 1     1   6.5
# 2     2   7.0
# 3     3   8.0

Если вы хотите отдельную функцию, вы можете сделать:

summarize2 <- function(.data, ..., .by){
  grps <- select_at(.data,.by) %>% pull %>% unique
  .data %>%
    arrange_at(.by) %>%
    map_dfr(seq_along(grps),
             ~ filter_at(.y, .by,all_vars(. %in% grps[1:.x])),
             .y = .,
             .id = "meta_group") %>%
    group_by(meta_group) %>%
    summarise(...)
}

df %>% 
  summarize2(b = mean(b), .by = "a")
# # A tibble: 3 x 2
#   meta_group     b
#        <chr> <dbl>
# 1          1   6.5
# 2          2   7.0
# 3          3   8.0

df %>% 
  summarize2(b = mean(b), .by = vars(a))
# # A tibble: 3 x 2
#   meta_group     b
#        <chr> <dbl>
# 1          1   6.5
# 2          2   7.0
# 3          3   8.0

Sotos · Answer 2 · 02 декабря 2018

Один из способов - использовать базовую функцию Reduce с аргументом accumulate = TRUE.После объединения можно применить любую функцию, например,

Reduce(c, split(df$b,df$a), accumulate = TRUE)
#[[1]]
#[1] 6 7

#[[2]]
#[1]  6  7  9 10

#[[3]]
#[1]  6  7  9 10  3

, а затем для среднего значения

sapply(Reduce(c, split(df$b,df$a), accumulate = TRUE), mean)
[1] 6.5 8.0 7.0

.

JBGruber · Answer 3 · 02 декабря 2018

Я посмотрел, и я не понимаю, как это возможно с самой dplyr.Однако мы можем взломать функцию group_by, чтобы сделать ее кумулятивной.Я быстро проведу вас через это:

Во-первых, я делаю ваш df.Это не совсем соответствует вашему выводу, поэтому я немного изменил его.

df = data.frame(a = c(1,1,3,2,2), b=6:10)
df$b[3] <- 3

Теперь я использую обычный group_by, чтобы проверить, что он на самом деле делает с data.frame.

library(dplyr)
df_grouped <- df %>%
  arrange(a) %>%
  group_by(a)
> attributes(df_grouped)
$class
[1] "grouped_df" "tbl_df"     "tbl"        "data.frame"

$row.names
[1] 1 2 3 4 5

$names
[1] "a" "b"

$vars
[1] "a"

$drop
[1] TRUE

$indices
$indices[[1]]
[1] 0 1

$indices[[2]]
[1] 2 3

$indices[[3]]
[1] 4


$group_sizes
[1] 2 2 1

$biggest_group_size
[1] 2

$labels
  a
1 1
2 2
3 3

Таким образом, помимо прочего, существует новый атрибут с именем indices, на который ссылается группа каждого элемента в сгруппированной переменной.На самом деле мы можем просто изменить это, чтобы сделать его кумулятивным.

for (i in seq_along(attributes(df_grouped)[["indices"]])[-1]) {
  attributes(df_grouped)[["indices"]][[i]] <- c(
    attributes(df_grouped)[["indices"]][[i - 1]],
    attributes(df_grouped)[["indices"]][[i]]
  )
}

Это выглядит немного странно, но просто.Элементы каждой группы добавляются в следующую группу.Например, все элементы из группы 1 добавляются в группу 2.

> attributes(df_grouped)$indices
[[1]]
[1] 0 1

[[2]]
[1] 0 1 3 4

[[3]]
[1] 0 1 3 4 2

Мы можем использовать измененные группы обычным образом dplyr.

> df_grouped %>%
+   summarise(sum_b = mean(b))
# A tibble: 3 x 2
      a sum_b
  <dbl> <dbl>
1     1   6.5
2     2   8  
3     3   7

Теперь, конечно, это довольнонекрасиво и выглядит очень нахальноНо внутри функции, которая на самом деле не имеет значения, пока она все еще эффективна (что это такое).Итак, давайте сделаем пользовательский group_by.

group_by_cuml <- function(.data, ...) {
  .data_grouped <- group_by(.data, ...)
  for (i in seq_along(attributes(.data_grouped)[["indices"]])[-1]) {
    attributes(.data_grouped)[["indices"]][[i]] <- c(
      attributes(.data_grouped)[["indices"]][[i - 1]],
      attributes(.data_grouped)[["indices"]][[i]]
    )
  }
  return(.data_grouped)
}

Теперь вы можете использовать пользовательскую функцию в чистой dplyr трубе.

> df %>%
+   group_by_cuml(a) %>% 
+   summarise(sum_b = mean(b))
# A tibble: 3 x 2
      a sum_b
  <dbl> <dbl>
1     1   6.5
2     2   8  
3     3   7

Ronak Shah · Answer 4 · 02 декабря 2018

Как насчет этого?

library(dplyr)

df %>%
 arrange(a) %>%
 group_by(a) %>%
 summarise(sum_b = sum(b)) %>%
 ungroup() %>%
 mutate(sum_b = cumsum(sum_b))

#     a sum_b
#  <dbl> <int>
#1    1.    13
#2    2.    32
#3    3.    40

Мы берем sum по группе (a), а затем берем накопленную сумму, добавляя предыдущее значение группы в следующую группу.

накопительная группировка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

накопительная группировка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы