Рассчитать различия между группами в R - PullRequest
0 голосов
/ 23 ноября 2018

Для примера кадра данных:

df1 <- structure(list(name = c("a", "b", "c", "d", "e", "f", "g", "h", 
"i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", 
"v", "w", "x", "y", "z", "a", "b", "c", "d", "e", "f", "g", "h", 
"i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", 
"v", "w", "x", "y", "z", "a", "b", "c", "d", "e", "f", "g", "h", 
"i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", 
"v", "w", "x", "y", "z"), amount = c(5.5, 5.4, 5.2, 5.3, 5.1, 
5.1, 5, 5, 4.9, 4.5, 6, 5.9, 5.7, 5.4, 5.3, 5.1, 5.6, 5.4, 5.3, 
5.6, 4.6, 4.2, 4.5, 4.2, 4, 3.8, 6, 5.8, 5.7, 5.6, 5.3, 5.6, 
5.4, 5.5, 5.4, 5.1, 9, 8.8, 8.6, 8.4, 8.2, 8, 7.8, 7.6, 7.4, 
7.2, 6, 5.75, 5.5, 5.25, 5, 4.75, 10, 8.9, 7.8, 6.7, 5.6, 4.5, 
3.4, 2.3, 1.2, 0.1, 6, 5.8, 5.7, 5.6, 5.5, 5.5, 5.4, 5.6, 5.8, 
5.1, 6, 5.5, 5.4, 5.3, 5.2, 5.1), decile = c(1L, 2L, 3L, 4L, 
5L, 6L, 7L, 8L, 9L, 10L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 
10L, 1L, 2L, 3L, 4L, 5L, 6L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 
9L, 10L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 1L, 2L, 3L, 
4L, 5L, 6L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 1L, 2L, 
3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 1L, 2L, 3L, 4L, 5L, 6L), time = c(2016L, 
2016L, 2016L, 2016L, 2016L, 2016L, 2016L, 2016L, 2016L, 2016L, 
2016L, 2016L, 2016L, 2016L, 2016L, 2016L, 2016L, 2016L, 2016L, 
2016L, 2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 
2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 
2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 
2017L, 2017L, 2017L, 2017L, 2017L, 2017L, 2018L, 2018L, 2018L, 
2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 
2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 2018L, 
2018L, 2018L, 2018L, 2018L, 2018L)), .Names = c("name", "amount", 
"decile", "time"), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA, 
-78L), spec = structure(list(cols = structure(list(name = structure(list(), class = c("collector_character", 
"collector")), amount = structure(list(), class = c("collector_double", 
"collector")), decile = structure(list(), class = c("collector_integer", 
"collector")), time = structure(list(), class = c("collector_integer", 
"collector"))), .Names = c("name", "amount", "decile", "time"
)), default = structure(list(), class = c("collector_guess", 
"collector"))), .Names = c("cols", "default"), class = "col_spec"))

Я хочу рассчитать средний результат для децилей 1, 5 и 10 BY каждый год (2016, 17 и т. Д.).Затем я хочу создать итоговую таблицу с подробным описанием года в первом столбце, а затем разрыв между средним результатом для децилей 1 и 10 (т. Е. Результат в десятичном выражении минус результат в дециле 1), а затем градиент между средними результатами для децилей 5 и10 (т. Е. 10 средних результатов минус 5 средних результатов), что представляет собой разницу в средних значениях между децилями 5 и 10.

Для иллюстрации я создал рабочий пример данных за 2016 год. Я перечисляю значения для децилей 1, 5 и 10 для 2016 года. Затем я использую эти значения для расчета разрыва и градиента разности.

summary2016 <- structure(list(`2016` = c(NA_character_, NA_character_, NA_character_, 
NA_character_), `1` = c("5", "10", "Gap", "Gradient"), `5.5` = c(5.1, 
4.5, 1.4, 0.3), `6` = c(5.3, 5.6, NA, NA), `11.5` = c(10.4, 10.1, 
NA, NA)), .Names = c("2016", "1", "5.5", "6", "11.5"), class = c("tbl_df", 
"tbl", "data.frame"), row.names = c(NA, -4L), spec = structure(list(
    cols = structure(list(`2016` = structure(list(), class = c("collector_character", 
    "collector")), `1` = structure(list(), class = c("collector_character", 
    "collector")), `5.5` = structure(list(), class = c("collector_double", 
    "collector")), `6` = structure(list(), class = c("collector_double", 
    "collector")), `11.5` = structure(list(), class = c("collector_double", 
    "collector"))), .Names = c("2016", "1", "5.5", "6", "11.5"
    )), default = structure(list(), class = c("collector_guess", 
    "collector"))), .Names = c("cols", "default"), class = "col_spec"))

Можно ли это сделать за один шаг, или мне нужно разбить его?

1 Ответ

0 голосов
/ 23 ноября 2018
library(tidyverse)
df1 %>% filter(decile %in% c(1, 5, 10)) %>% 
  group_by(time, decile) %>% summarise(mean = mean(amount)) %>% 
  mutate(gap1 = mean - mean[1], gap5 = mean - mean[2])

# A tibble: 9 x 5
# Groups:   time [3]
#    time decile  mean   gap1   gap5
#   <int>  <int> <dbl>  <dbl>  <dbl>
# 1  2016      1  5.75  0      0.55 
# 2  2016      5  5.20 -0.55   0    
# 3  2016     10  5.05 -0.7   -0.150
# 4  2017      1  6.4   0      0.775
# 5  2017      5  5.62 -0.775  0    
# 6  2017     10  6.15 -0.25   0.525
# 7  2018      1  7.33  0      1.90 
# 8  2018      5  5.43 -1.90   0    
# 9  2018     10  2.60 -4.73  -2.83 

Числа отличаются от ваших, поэтому, возможно, вы ищете какие-то другие пробелы.Ваш пример summary2016 также имеет несколько необычную структуру, в то время как приведенное выше решение дает нечто большее, чем вы просите, но в более хорошем формате.

В частности, gap1 означает среднее значение (дециль i) - среднее значение (дециль 1) , где i = 1, 5, 10, тогда как gap5 равно среднее значение (дециль i) - среднее значение (дециль 5) .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...