Итеративное деление на заданную c строку для сгруппированных данных dplyr в R - PullRequest
1 голос
/ 07 февраля 2020

Я хотел бы итеративно разделить каждое значение на указанную c строку в пределах каждого уровня группирующей переменной. Вот некоторые примеры данных:

library(tidyverse)

d <- structure(list(group = c("blue", "blue", "blue", "red", "red", 
                     "red", "yellow", "yellow", "yellow", "green", "green", "green"
), level = c("a", "b", "c", "a", "b", "c", "a", "b", "c", "a", 
         "b", "c"), value = c(1.666667, 1.333333, 1, 5, 4, 1, 6, 5, 1, 2.75, 2.25, 1)), row.names = c(NA, 
                                                                                    -12L), class = c("tbl_df", "tbl", "data.frame"))


d
 # A tibble: 12 x 3
   group  level value
   <chr>  <chr> <dbl>
 1 blue   a         5
 2 blue   b         4
 3 blue   c         3
 4 red    a        10
 5 red    b         8
 6 red    c         2
 7 yellow a         6
 8 yellow b         5
 9 yellow c         1
10 green  a        11
11 green  b         9
12 green  c         4

Итак, допустим, я бы хотел разделить каждое значение, найденное в каждой группе, на уровень c. В этом случае результат будет выглядеть следующим образом:

result
# A tibble: 12 x 3
   group  level value
   <chr>  <chr> <dbl>
 1 blue   a      1.67
 2 blue   b      1.33
 3 blue   c      1   
 4 red    a      5   
 5 red    b      4   
 6 red    c      1   
 7 yellow a      6   
 8 yellow b      5   
 9 yellow c      1   
10 green  a      2.75
11 green  b      2.25
12 green  c      1 

Есть ли способ сделать это с помощью функции Tidyverse?

1 Ответ

1 голос
/ 07 февраля 2020

Предполагая, что level не дублируется в «группе», после группировки по «группе» извлеките «значение», соответствующее уровню «c» (value[level == 'c']), и используйте его для деления столбец 'value'

library(dplyr)
d %>% 
   group_by(group) %>%
   mutate(value = value/value[level == 'c'])
# A tibble: 12 x 3
# Groups:   group [4]
#   group  level value
#   <chr>  <chr> <dbl>
# 1 blue   a      1.67
# 2 blue   b      1.33
# 3 blue   c      1   
# 4 red    a      5   
# 5 red    b      4   
# 6 red    c      1   
# 7 yellow a      6   
# 8 yellow b      5   
# 9 yellow c      1   
#10 green  a      2.75
#11 green  b      2.25
#12 green  c      1   

Или, если есть несколько 'c', используйте match, чтобы получить индекс первого вхождения 'c'

d %>%
  group_by(group) %>%
  mutate(value = value/value[match('c', level)])

Или используя base R

d$value <-  d$value/with(subset(d, level == 'c'), setNames(value, group)[d$group])

data

d <- structure(list(group = c("blue", "blue", "blue", "red", "red", 
"red", "yellow", "yellow", "yellow", "green", "green", "green"
), level = c("a", "b", "c", "a", "b", "c", "a", "b", "c", "a", 
"b", "c"), value = c(5, 4, 3, 10, 8, 2, 6, 5, 1, 11, 9, 4)), row.names = c(NA, 
-12L), class = c("tbl_df", "tbl", "data.frame"))
...