Расчет срока владения в R - PullRequest
0 голосов
/ 29 октября 2018

Итак, я задал похожий вопрос некоторое время назад (см. Создание столбца владения в Days in R ), но я не смог достичь правильного результата, но теперь я нашел другой возможный способ просить то же самое, что может быть немного легче решить.

Проблема: я пытаюсь создать столбец, в котором будет указан день владения клиентом. Вот некоторый макет кода:

    Date<-c("01/01/2018", "12/02/2018", "10/03/2018", "22/03/2018", "29/03/2018", "01/04/2018", "02/04/2018","04/04/2018","07/04/2018","11/04/2018", "15/04/2018", "17/04/2018","19/04/2018","21/04/2018","22/04/2018", "29/04/2018", "01/05/2018","03/05/2018","08/05/2018", "10/05/2018", "12/05/2018")
    ClientID<-c("aaa","bbb","ccc","ddd", "eee", "fff", "ggg","aaa","bbb","ccc","ddd", "eee", "fff", "ggg","aaa","bbb","ccc","ddd", "eee", "fff", "ggg")
    df<-cbind(ClientID, Date)
    df<-as.data.frame(df)
    df$Date<-dmy(df$Date)
    df$yearDay<-df$Date
    df$yearDay<-yday(df$yearDay)

Даю вам что-то вроде этого:

    df

   ClientID       Date      yearDay
   aaa          2018-01-01       1
   bbb          2018-02-12      43
   ccc          2018-03-10      69
   ddd          2018-03-22      81
   eee          2018-03-29      88
   fff          2018-04-01      91
   ggg          2018-04-02      92
   aaa          2018-04-04      94
   bbb          2018-04-07      97
   ccc          2018-04-11     101
   ddd          2018-04-15     105
   eee          2018-04-17     107
   fff          2018-04-19     109
   ggg          2018-04-21     111
   aaa          2018-04-22     112
   bbb          2018-04-29     119
   ccc          2018-05-01     121
   ddd          2018-05-03     123
   eee          2018-05-08     128
   fff          2018-05-10     130
   ggg          2018-05-12     132

Теперь то, что я хочу сделать (но не уверен, как это сделать), это взять номер yearDay во втором экземпляре для каждого идентификатора клиента и вычесть yearDay в предыдущем экземпляре. Затем возьмите номер yearDay в третьем случае и вычтите yearDay в предыдущем случае. И так далее и тому подобное (у меня более четырех миллионов строк данных). Ответ должен оставить меня с днем ​​владения. Выглядеть так: -

    ClientID       Date      yearDay     tenureDay
    aaa          2018-01-01       1          1
    bbb          2018-02-12      43          1
    ccc          2018-03-10      69          1
    ddd          2018-03-22      81          1
    eee          2018-03-29      88          1 
    fff          2018-04-01      91          1
    ggg          2018-04-02      92          1
    aaa          2018-04-04      94          93 
    bbb          2018-04-07      97          54
    ccc          2018-04-11     101          48
    ddd          2018-04-15     105          24
    eee          2018-04-17     107          19
    fff          2018-04-19     109          18
    ggg          2018-04-21     111          19

Есть идеи, как мне этого добиться?

Заранее спасибо !!!

1 Ответ

0 голосов
/ 29 октября 2018

Для этого вы можете использовать комбинацию mutate(), arrange(), lag() и group_by() из пакета dplyr.

library(dplyr)

df %>%
  group_by(ClientID) %>%
  arrange(yearDay) %>%
  mutate(tenureDay = yearDay - lag(yearDay)) 
...