Суммируйте каждое уникальное значение одного столбца для каждого уникального значения в другом столбце R - PullRequest
0 голосов
/ 12 октября 2018

Пример моего фрейма данных:

df<- structure(list(Var1 = c("A-01", "A-01", "A-02", "A-01", "A-02", 
                         "A-03", "A-01", "A-02", "A-03", "A-04", "A-01", "A-02", "A-03", 
                         "A-04", "A-05", "A-01", "A-02", "A-03", "A-04", "A-05", "A-07", 
                         "A-01", "A-02", "A-03", "A-04", "A-05", "A-07", "A-08", "A-01", 
                         "A-02"), Var2 = c("A-02", "A-03", "A-03", "A-04", "A-04", "A-04", 
                                           "A-05", "A-05", "A-05", "A-05", "A-07", "A-07", "A-07", "A-07", 
                                           "A-07", "A-08", "A-08", "A-08", "A-08", "A-08", "A-08", "A-09", 
                                           "A-09", "A-09", "A-09", "A-09", "A-09", "A-09", "A-11", "A-11"
                         ), value.data = c(1, -1, -1, 1, 1, -1, 1, 1, -1, 1, -1, -1, 1, 
                                           -1, -1, 1, NA, -1, 1, 1, -1, -1, -1, 1, -1, 0, 1, -1, 1, 1)), row.names = c(37L, 
                                                                                                                       73L, 74L, 109L, 110L, 111L, 145L, 146L, 147L, 148L, 181L, 182L, 
                                                                                                                       183L, 184L, 185L, 217L, 218L, 219L, 220L, 221L, 222L, 253L, 254L, 
                                                                                                                       255L, 256L, 257L, 258L, 259L, 289L, 290L), class = "data.frame")

Таким образом, каждый раз, когда переменная появляется в «Var1» или «Var2», подсчитывается количество вхождений для различных уникальных значений в «value.data».

Итак, у меня будет сводная таблица, подобная этой:

df_sum<- data.frame(Var = c(rep("A-01", 4), rep("A-02", 4)), value.data = c(rep(c(1, -1, 0, NA), 2)), sum=c(5,3,0,0,4,3,0,1))

Я могу сделать это один за другим по подмножеству.Неэффективен для сотен переменных.

Спасибо

1 Ответ

0 голосов
/ 12 октября 2018

Если вы конвертируете свои данные в длинный формат, вы можете использовать count

library(tidyverse)

df %>% 
  melt('value.data') %>% 
  count(value, value.data) %>% 
  complete(value, value.data, fill = list(n = 0)) %>% 
  mutate_if(is.numeric, as.integer)

# # A tibble: 36 x 3
#    value value.data     n
#    <chr>      <int> <int>
#  1 A-01         - 1     3
#  2 A-01           0     0
#  3 A-01           1     5
#  4 A-01          NA     0
#  5 A-02         - 1     3
#  6 A-02           0     0
#  7 A-02           1     4
#  8 A-02          NA     1
#  9 A-03         - 1     5
# 10 A-03           0     0
# # ... with 26 more rows
...