Группировка по и фильтрация между датами - PullRequest
0 голосов
/ 14 февраля 2019

Я пытаюсь отфильтровать таблицу заказов по каждому заказчику на первый год.

Мои данные представлены в следующем формате, в котором каждая строка представляет заказ, но я добавил столбцы уровня клиента, чтобы представить дату их первого заказа (Recruitment Date), а также дату, которая отмечает годс каждого клиента первый заказ (1st Year Since Recruitment) и второй год с момента набора;последний столбец - сумма, выплаченная по текущему заказу.

Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   1876202 obs. of  6 variables:
 $ Brand_Acc                 : chr  "B000000001" "B000000002" "B000000002" "B000000002" ...
 $ salesdate                 : Date, format: "2008-03-10" "2008-02-19" "2008-07-14" "2010-08-25" ...
 $ Recruitment Date          : Date, format: "2008-03-10" "2008-02-19" NA NA ...
 $ 1st Year Since Recruitment: Date, format: "2009-03-10" "2009-02-19" NA NA ...
 $ 2nd Year Since Recruitment: Date, format: "2010-03-10" "2010-02-19" NA NA ...
 $ TotalDiscount             : num  97.9 349.9 184.9 284.9 348.9 ...

Я хочу вернуть фрейм данных, который фиксирует количество заказов каждого клиента за первый год.

Я пробовал следующее:

df %>%
  group_by(Brand_Acc) %>%
  filter(salesdate, between(`Recruitment Date`, `1st Year Since Recruitment`))

Но я получаю эту ошибку:

Error in filter_impl(.data, quo) : Evaluation error: argument "right" is missing, with no default.

Как правильно это сделать?

Редактировать , показывая dput первых 5 строк:

dput(df)
structure(list(Brand_Acc = c("B000000001", "B000000002", "B000000002", 
"B000000002", "B000000006"), salesdate = structure(c(13948, 13928, 
14074, 14846, 13934), class = "Date"), ordertype = c("Recruitment", 
"Recruitment", "Conversion", "Active Order", "Recruitment"), 
    actv_channel = c("MainMail", "MainMail", "Outbound-Other", 
    "MainMail", "MainMail"), TotalDiscount = c(97.87, 349.88, 
    184.94, 284.94, 348.9), campaignparentid = c("9017", "9017", 
    "9035", "9557", "9017"), BrandAccount_Brand = c("wp", "wp", 
    "wp", "wp", "wp"), recrtype = c("STNRD", "STNRD", "STNRD", 
    "STNRD", "STNRD"), POA_CODE = structure(c(1937L, 2302L, 2302L, 
    2302L, 466L), .Label = c("0", "200", "800", "801", "804"), class = "factor"), 
    `Recruitment Date` = structure(c(13948, 13928, NA, NA, 13934
    ), class = "Date"), `1st Year Since Recruitment` = structure(c(14313, 
    14294, NA, NA, 14300), class = "Date"), `2nd Year Since Recruitment` = structure(c(14678, 
    14659, NA, NA, 14665), class = "Date"), `3rd Year Since Recruitment` = structure(c(15043, 
    15024, NA, NA, 15030), class = "Date")), class = c("tbl_df", 
"tbl", "data.frame"), row.names = c(NA, -5L))
> ```





1 Ответ

0 голосов
/ 14 февраля 2019

Удивительно, но between не векторизовано в своих аргументах left и right, чего вы могли ожидать, поскольку оно описывает себя как простую замену комбинации <= и >=.Нам просто нужно прибегнуть к долгому пути:

library(tidyverse)
df <- structure(list(Brand_Acc = c("B000000001", "B000000002", "B000000002", "B000000002", "B000000006"), salesdate = structure(c(13948, 13928, 14074, 14846, 13934), class = "Date"), ordertype = c("Recruitment", "Recruitment", "Conversion", "Active Order", "Recruitment"), actv_channel = c("MainMail", "MainMail", "Outbound-Other", "MainMail", "MainMail"), TotalDiscount = c(97.87, 349.88, 184.94, 284.94, 348.9), campaignparentid = c("9017", "9017", "9035", "9557", "9017"), BrandAccount_Brand = c("wp", "wp", "wp", "wp", "wp"), recrtype = c("STNRD", "STNRD", "STNRD", "STNRD", "STNRD"), POA_CODE = structure(c(1937L, 2302L, 2302L, 2302L, 466L), .Label = c("0", "200", "800", "801", "804"), class = "factor"), `Recruitment Date` = structure(c(13948, 13928, NA, NA, 13934), class = "Date"), `1st Year Since Recruitment` = structure(c(14313, 14294, NA, NA, 14300), class = "Date"), `2nd Year Since Recruitment` = structure(c(14678, 14659, NA, NA, 14665), class = "Date"), `3rd Year Since Recruitment` = structure(c(15043, 15024, NA, NA, 15030), class = "Date")), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA, -5L))
df %>%
  group_by(Brand_Acc) %>%
  filter(salesdate >= `Recruitment Date` & salesdate <= `1st Year Since Recruitment`)
#> # A tibble: 3 x 13
#> # Groups:   Brand_Acc [3]
#>   Brand_Acc salesdate  ordertype actv_channel TotalDiscount
#>   <chr>     <date>     <chr>     <chr>                <dbl>
#> 1 B0000000… 2008-03-10 Recruitm… MainMail              97.9
#> 2 B0000000… 2008-02-19 Recruitm… MainMail             350. 
#> 3 B0000000… 2008-02-25 Recruitm… MainMail             349. 
#> # … with 8 more variables: campaignparentid <chr>,
#> #   BrandAccount_Brand <chr>, recrtype <chr>, POA_CODE <fct>, `Recruitment
#> #   Date` <date>, `1st Year Since Recruitment` <date>, `2nd Year Since
#> #   Recruitment` <date>, `3rd Year Since Recruitment` <date>

Создано в 2019-02-13 с помощью пакета prex (v0.2.1)

Была также синтаксическая ошибка в between, хотя это не имеет значения сейчас:

filter(salesdate %>% between(`Recruitment Date`, `1st Year Since Recruitment`))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...