Question

У меня есть фрагмент кода агрегации, который работает достаточно хорошо, но работает немного медленно для фрейма данных с 10e6 строками.Я не настолько опытен в R, поэтому прошу прощения за мой кропотливый код!

Я просто хочу сделать базовое свертывание и сумму значений для общего ключа ...

например, goот ...

  key val
1   a   5
2   b   7
3   a   6

до ...

  key val
1   a   11
2   b   7

лучшее, что я могу сделать, это ...

keys = unique(inp$key)
vals = sapply(keys, function(x) { sum(inp[inp$key==x,]$val) })
out = data.frame(key=keys, val=vals)

У меня такое чувство, чтоinp[inp$key==x,] не лучший способ.Есть ли очевидное ускорение, которое я пропускаю?Я могу сделать это в Hadoop (поскольку набор данных 10e6 на самом деле уже является накопительным пакетом из набора данных строк 2e9), но я пытаюсь улучшить мой R.

Cheers, Mat

kohske · Answer 1 · 25 июля 2011

вы можете использовать aggregate:

> d
  key val
1   a   5
2   b   7
3   a   6
> aggregate(val~key, sum, data=d)
  key val
1   a  11
2   b   7

вы также можете использовать ddply из пакета plyr hadley:

> ddply(d, .(key), summarize, val=sum(val))
  key val
1   a  11
2   b   7

Chase · Answer 2 · 25 июля 2011

Другая опция, использующая tapply:

dat <- data.frame(key = c('a', 'b', 'a'), val = c(5,7,6))

> with(dat, tapply(val, key, FUN = sum))
 a  b 
11  7

Мои тесты показывают, что это самый быстрый метод для этого конкретного упражнения, очевидно, ваши мили могут отличаться:

fn.tapply <- function(daters) with(daters, tapply(val, key, FUN = sum))
fn.aggregate <- function(daters) aggregate(val~key, sum, data = daters)
fn.ddply <- function(daters) ddply(daters, .(key), summarize, val = sum(val))


library(rbenchmark)

benchmark(fn.tapply(dat), fn.aggregate(dat), fn.ddply(dat)
          , columns = c("test", "elapsed", "relative")
          , order = "relative"
          , replications = 100
          )


               test elapsed  relative
1    fn.tapply(dat)    0.03  1.000000
2 fn.aggregate(dat)    0.20  6.666667
3     fn.ddply(dat)    0.30 10.000000

Обратите внимание, что преобразование решения tapply в data.frame сократило эту разницу наполовину на ~ 40% для сравнения истинных яблок с яблоками по сравнению с первыми двумя.

Использование набора данных строки 1M, как указано в комментариях, кажется, немного меняет положение:

 dat2 <- data.frame(key = rep(letters[1:5], each = 200000), val = runif(1e6))
> benchmark(fn.tapply(dat2), fn.aggregate(dat2), fn.ddply(dat2)
+           , columns = c("test", "elapsed", "relative")
+           , order = "relative"
+           , replications = 100
+           )
               test elapsed relative
1   fn.tapply(dat2)  39.114 1.000000
3     fn.ddply(dat2)  62.178 1.589661
2 fn.aggregate(dat2) 157.463 4.025745

Tommy O'Dell · Answer 3 · 27 ноября 2011

Технически вы сказали «фрейм данных», но другой гораздо более быстрый вариант (более чем в 22 раза быстрее) - это использование пакета data.table.

Вот эталон для 10 повторений по 10e6 строк.

library(rbenchmark)
library(plyr)
library(data.table)

key <- sample(letters,10e6, replace = T)
val <- sample.int(10,10e6, replace = T)
big_df <- data.frame(key,val)
rm(key)
rm(val)
big_dtable <- data.table(big_df)
setkey(big_dtable,key)

fn.data_table <- function(mydata) mydata[,list(sum = sum(val)), by = 'key']
fn.tapply <- function(mydata) with(mydata, tapply(val, key, FUN = sum))
fn.aggregate <- function(mydata) aggregate(val~key, sum, data = mydata)
fn.ddply <- function(mydata) ddply(mydata, .(key), summarize, val = sum(val))

А теперь эталон ....

benchmark(fn.data_table(big_dtable)
          , fn.tapply(big_df)
          , fn.aggregate(big_df)
          , fn.ddply(big_df)
          , fn.ddply(big_dtable)
          , columns = c("test","elapsed","relative")
          , order = "relative"
          , replications = 10         
          )

И результат ....

                       test elapsed  relative
1 fn.data_table(big_dtable)    1.98   1.00000
5      fn.ddply(big_dtable)   37.59  18.98485
4          fn.ddply(big_df)   44.36  22.40404
2         fn.tapply(big_df)   51.03  25.77273
3      fn.aggregate(big_df)  238.52 120.46465

Joshua Ulrich · Answer 4 · 25 июля 2011

Использование sapply и split - еще один вариант.Я расширю данные и тесты из превосходного ответа @ Chase.

fn.tapply <- function(daters) with(daters, tapply(val, key, FUN = sum))
fn.split <- function(daters) with(daters, sapply(split(val, key), sum))

str(dat)
# 'data.frame': 1000000 obs. of  2 variables:
#  $ key: Factor w/ 5 levels "a","b","c","d",..: 1 1 1 1 1 1 1 1 1 1 ...
#  $ val: num  0.186 0.875 0.42 0.294 0.878 ...

benchmark(fn.tapply(dat), fn.split(dat)
          , columns = c("test", "elapsed", "relative")
          , order = "relative"
          , replications = 100
          )
#             test elapsed relative
# 2  fn.split(dat)   4.106  1.00000
# 1 fn.tapply(dat)  69.982 17.04384

Агрегирование значений во фрейме данных на основе ключа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Агрегирование значений во фрейме данных на основе ключа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы