R loop / lapply, кумулятивные итоги с группой по - PullRequest
0 голосов
/ 21 ноября 2018

Я пытаюсь создать в моем наборе данных новые переменные, которые представляют собой кумулятивные итоги, которые перезапускаются на основе других переменных (используя group by)… Я хочу, чтобы это были новые столбцы в наборе данных, и это та часть, с которой я борюсь...

Используя приведенные ниже данные, я хочу создать накопительные столбцы Sale и Profit, которые будут перезапускаться для каждой группы Product и Product_Cat.

Приведенный ниже код частично дает мне то, что мне нужно, нопеременные не являются новыми переменными, а перезаписывают существующие продажи / прибыль ... что я делаю не так?Я полагаю, это просто, я ничего не нашел.

Примечание: я использую lapply, поскольку мой реальный набор данных содержит более 40 переменных, для которых мне нужно создать вычисления.

DT <- setDT(Data)[,lapply(.SD, cumsum), by = .(Product,Product_Cat) ]

Данные для примера:

Product <- c('A','A','A','B','B','B','C','C','C')
Product_Cat <- c('S1','S1','S2','C1','C1','C1','D1','E1','F1')
Sale <- c(10,15,5,20,15,10,5,5,5)
Profit <- c(2,4,2,6,8,2,4,6,8)
Sale_Cum <- c(10,25,5,20,35,45,5,5,5)
Profit_Cum <- c(2,6,2,6,14,16,4,6,8)

Data <- data.frame(Product,Product_Cat,Sale,Profit)
Desired_Data <- data.frame(Product,Product_Cat,Sale,Profit,Sale_Cum,Profit_Cum)

Ответы [ 4 ]

0 голосов
/ 21 ноября 2018

Вот довольно плохой код, который делает все шаг за шагом

#sample data
d<-sample(1:10)
f<-sample(1:10)
p<-c("f","f","f","f","q","q","q","w","w","w")
pc<-c("c","c","d","d","d","v","v","v","b","b")
cc<-data.table(p,pc,d,f)

#storing the values that are overwritten first.
three<-cc[,3]
four<- cc[,4]
#applying your function 
dt<-setDT(c)[,lapply(.SD,cumsum), by=.(p,pc)]

#binding the stored values to your function and renaming everything.
x<-cbind(dt,three,four)
colnames(x)[5]<-"sale"
colnames(x)[6]<-"profit"
colnames(x)[4]<-"CumSale"
colnames(x)[3]<-"CumProfit"

#reordering the columns
xx<-x[,c("p","pc","profit","sale","CumSale","CumProfit")]
xx
0 голосов
/ 21 ноября 2018

Данные:

structure(list(Product = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 
3L, 3L, 3L), .Label = c("A", "B", "C"), class = "factor"), Product_Cat = structure(c(5L, 
5L, 6L, 1L, 1L, 1L, 2L, 3L, 4L), .Label = c("C1", "D1", "E1", 
"F1", "S1", "S2"), class = "factor"), Sale = c(10L, 15L, 5L, 
20L, 15L, 10L, 5L, 5L, 5L), Profit = c(2L, 4L, 2L, 6L, 8L, 2L, 
4L, 6L, 8L), Sale_Cum = c(10, 25, 5, 20, 35, 45, 5, 5, 5), Profit_Cum = c(2, 
6, 2, 6, 14, 16, 4, 6, 8)), .Names = c("Product", "Product_Cat", 
"Sale", "Profit", "Sale_Cum", "Profit_Cum"), row.names = c(NA, 
-9L), class = "data.frame")`

Мы можем итеративно нарезать фрейм данных на основе Product и Product_Cat, и для каждой итерации назначать вывод, полученный с помощью cumsum(), Sale_Cum и Product_Cum:

cols <- c('Sale', 'Profit')

for (column in cols){
  x[, paste0(column, '_Cum')] <- 0
  for(p in unique(x$Product)){
    for (pc in unique(x$Product_Cat)){
      x[x$Product == p & x$Product_Cat == pc, paste0(column, '_Cum')] <- cumsum(x[x$Product == p & x$Product_Cat == pc, column])
    }
  }
}
print(x)
# Product Product_Cat Sale Profit Sale_Cum Profit_Cum
# 1       A          S1   10      2       10          2
# 2       A          S1   15      4       25          6
# 3       A          S2    5      2        5          2
# 4       B          C1   20      6       20          6
# 5       B          C1   15      8       35         14
# 6       B          C1   10      2       45         16
# 7       C          D1    5      4        5          4
# 8       C          E1    5      6        5          6
# 9       C          F1    5      8        5          8
0 голосов
/ 21 ноября 2018
library(data.table)
setDT(Data)

cols <- names(Data)[3:4]

Data[, paste0(cols, '_cumsum') := lapply(.SD, cumsum)
     , by = .(Product, Product_Cat) 
     , .SDcols = cols]
0 голосов
/ 21 ноября 2018

Эта группа сама по себе не используется, но я думаю, что она достигает того, что вы ищете, так как ее легко расширить на многие столбцы:

D2 <- data.frame(lapply(Data[,c(3,4)], cumsum))
names(D2) <- gsub("$", "_cum", names(Data[,c(3,4)]))
Data <- cbind(Data, D2)

Если у вас более 40 столбцов, простоизмените c (3,4), чтобы включить все столбцы, которые вы ищете.

РЕДАКТИРОВАТЬ:

Я забыл, что ОП хотел сбросить его для каждой категории.В этом случае вы можете изменить свой исходный код:

DT <- setDT(Data)[,lapply(.SD, cumsum), by = .(Product,Product_Cat) ]
names(D2)[c(-1,-2)] <- gsub("$", "_cum", names(Data)[c(-1,-2)])
cbind(Data, D2[,c(-1,-2)])
...