R. суммирование данных без слияния - PullRequest
2 голосов
/ 08 ноября 2011

У меня есть датафрейм (df) голов, забитых против различных команд по дате

gamedate teamID Gls
 1992-08-22  CHL  3
 1992-08-22  MNU  1
 1992-08-23  ARS  0
 1992-08-23  LIV  2
 1992-08-24  MNU  0
 1992-08-25  LIV  2
 1992-08-26  ARS  0
 1992-08-26  CHL  0

Я хочу составить сводную таблицу, которая показывает количество сыгранных игр и количество игр, в которых эти команды подавляли противостояние на каждую дату

gamedate   games blanks
 1992-08-22   2     0
 1992-08-23   2     1
 1992-08-24   1     1
 1992-08-25   1     0
 1992-08-26   2     2

Я могу получить игры и бланки отдельно, используя ddply

df.a <- ddply(df,"gamedate",function(x) c(count=nrow(x)))
df.b <- ddply(subset(df,Gls==0),"gamedate",function(x) c(count=nrow(x)))

, а затем объединить df.a и df.b, чтобы получить мой ответ. Тем не менее, я уверен, что должно быть больше простое и элегантное решение

Ответы [ 3 ]

3 голосов
/ 08 ноября 2011

Вам просто нужно использовать summarise:

Считать данные в:

   dat <- read.table(textConnection("gamedate teamID Gls
  1992-08-22  CHL  3
  1992-08-22  MNU  1
  1992-08-23  ARS  0
  1992-08-23  LIV  2
  1992-08-24  MNU  0
  1992-08-25  LIV  2
  1992-08-26  ARS  0
  1992-08-26  CHL  0"),sep = "",header = TRUE)

, а затем позвоните ddply:

ddply(dat,.(gamedate),summarise,tot = length(teamID),blanks = length(which(Gls == 0)))
    gamedate tot blanks
1 1992-08-22   2      0
2 1992-08-23   2      1
3 1992-08-24   1      1
4 1992-08-25   1      0
5 1992-08-26   2      2
2 голосов
/ 08 ноября 2011

Единственное, чего вам не хватает - это обернуть ваши функции в вызов data.frame() и дать им имена столбцов ... и имена столбцов необязательны:)

Я использую dat data.frame @ joran, так как это позволило мне проверить мой ответ.

ddply( dat, "gamedate", function(x) data.frame( 
                                      tot = nrow( x ), 
                                      blanks = nrow( subset(x, Gls == 0 ) ) 
                                              ) 
     )

Кстати, мое забавное форматирование выше просто для предотвращения прокрутки на экране и для иллюстрации того, как я на самом деле просто объединяю функции, которые вы уже создали.

1 голос
/ 08 ноября 2011

Другое решение с использованием простого aggregate.Я использую Joran's dat.

agg <- aggregate(cbind(1, dat$Gls==0), list(dat$gamedate), sum)
names(agg) <- c("gamedate", "games", "blanks")
agg
...