Я пытаюсь подсчитать, сколько раз происходило событие для данного человека в течение определенного c периода прошлого времени. В этом конкретном случае мне нужно знать, для каждого нового наблюдения (которое отражает один запрос планирования), сколько раз человек запланировал поездку в течение предшествующих 60 дней (trip_scheduled). В конце концов мне нужно будет подсчитать, сколько раз этот человек отменил в тот же день, что и запланированная поездка за предыдущие 60 дней. Но я начинаю только с подсчета в «движущемся» 60-дневном периоде.
В этом посте я нашел несколько элегантных ответов на похожую, но немного отличающуюся проблему: R: вычислить количество вхождений определенного события c в указанное время в будущем
Моя ситуация отличается в нескольких отношениях: во-первых, я пытаюсь посмотреть на предыдущий период времени, и я не знаю, изменит ли это мой подход, и, во-вторых, мне нужно сделать анализ для большего чем 40000 человек, которых я пытался выполнить sh с помощью набора кода, который я нашел в другом ответе, для l oop (который, я знаю, неодобрительно) и группировки dplyr. Это совсем не работает.
Кто-нибудь сможет помочь мне направить меня в правильном направлении? Я хотел бы придерживаться dplyr и базы. Я просто не очень разбираюсь в data.table.
Это код и тестовые данные, на которых я пытался сойтись:
test_set2 <- structure(list(tripID = c("20180112-100037-674-101", "20180112-100037-674-201",
"20180112-100037-674-301", "20180113-100037-676-101", "20180113-100037-676-201",
"20180115-100037-675-101", "20180115-100037-675-201", "20180116-100037-677-101",
"20180116-100037-677-201", "20180131-100037-678-101", "20180101-100146-707-101",
"20180101-100146-707-201", "20180102-100146-708-101", "20180102-100146-708-201",
"20180103-100146-709-101", "20180103-100146-709-201", "20180104-100146-710-101",
"20180104-100146-710-201", "20180105-100146-711-101", "20180105-100146-711-201",
"20180403-100532-223-101", "20180403-100532-223-201", "20180620-100532-224-101",
"20180620-100532-224-201", "20180704-100532-225-101", "20180704-100532-225-201",
"20180926-100532-228-101", "20180926-100532-228-201", "20180927-100532-226-101",
"20180927-100532-226-201"), CUSTOMER_ID = c(100037L, 100037L,
100037L, 100037L, 100037L, 100037L, 100037L, 100037L, 100037L,
100037L, 100146L, 100146L, 100146L, 100146L, 100146L, 100146L,
100146L, 100146L, 100146L, 100146L, 100532L, 100532L, 100532L,
100532L, 100532L, 100532L, 100532L, 100532L, 100532L, 100532L
), trip_date = structure(c(17543, 17543, 17543, 17544, 17544,
17546, 17546, 17547, 17547, 17562, 17532, 17532, 17533, 17533,
17534, 17534, 17535, 17535, 17536, 17536, 17624, 17624, 17702,
17702, 17716, 17716, 17800, 17800, 17801, 17801), class = "Date"),
trip_scheduled = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1), same_day_cancel = c(1,
1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0)), row.names = c(NA, -30L), groups = structure(list(
CUSTOMER_ID = c(100037L, 100146L, 100532L), .rows = list(
1:10, 11:20, 21:30)), row.names = c(NA, -3L), class = c("tbl_df",
"tbl", "data.frame"), .drop = TRUE), class = c("grouped_df",
"tbl_df", "tbl", "data.frame"))
running_frame <- test_set2[1,]
unique_customers <- unique(test_set2$CUSTOMER_ID)
for (cust in unique_customers){
temp_events <- test_set2 %>% filter(CUSTOMER_ID == i)
cs = cumsum(temp_events$trip_scheduled) # cumulative number of trips of individual
output_temp <- data.frame(temp_events,
trips_minus_60 = cs[findInterval(temp_events$trip_date - 60, temp_events$trip_date, left.open = TRUE)] - cs)
new_table <- rbind(new_table,output_temp)
}
Это ошибка, которую я сгенерировал больше всего недавно:
Ошибка в data.frame (temp_events, trips_minus_60 = cs [findInterval (temp_events $ trip_date -: аргументы подразумевают различное количество строк: 10, 0