Как суммировать изменения, произошедшие в течение указанного диапазона дат c? - PullRequest
0 голосов
/ 26 мая 2020
df <- data.frame("Date"=seq(as.Date("2020/1/1"),by="day", length.out = 20),events=sample(0:100,20))

пытается суммировать ближайшее

df <- df %>% mutate(seven_sum=sum(events[Date <= Date & Date > Date-7]) )

Затем я хочу просуммировать все, что произошло за последние 7 дней, и я могу понять, почему это не работает, но не совсем, как это решить . Итак, в основном я хотел бы для каждой строки суммировать эту дату и все остальные в течение 7 дней. это было бы исправить, если я использую фиксированный диапазон дат, но я хотел бы изменить для каждой строки ...

Любые советы о том, как продолжить, были бы очень полезны.

Ответы [ 2 ]

2 голосов
/ 26 мая 2020

Использование purrr::map_int:

library(dplyr)
library(purrr)
df %>% mutate(seven_sum=map_int(Date, ~sum(events[Date <= .x & Date > (.x-7)])))

#         Date events seven_sum
#1  2020-01-01     66        66
#2  2020-01-02     94       160
#3  2020-01-03     49       209
#4  2020-01-04     39       248
#5  2020-01-05     84       332
#6  2020-01-06     29       361
#7  2020-01-07     36       397
#8  2020-01-08     20       351
#9  2020-01-09     40       297
#10 2020-01-10     25       273
#11 2020-01-11      3       237
#12 2020-01-12     97       250
#13 2020-01-13     22       243
#14 2020-01-14     63       270
#15 2020-01-15     58       308
#16 2020-01-16     91       359
#17 2020-01-17     26       360
#18 2020-01-18     47       404
#19 2020-01-19     35       342
#20 2020-01-20     38       358

и того же logi c в базе R:

sapply(df$Date, function(x) sum(df$events[df$Date <= x & df$Date > (x-7)]))
0 голосов
/ 26 мая 2020

Мы можем использовать data.table методы для выполнения неэквивалентного соединения, которое будет более эффективным

library(data.table)
v1 <- setDT(df)[df[, Date1 := Date - 7],  sum(events), 
   on = .(Date <= Date, Date > Date1), allow.cartesian =TRUE, by = .EACHI]$V1
df[, seven_sum := v1][]
...