Подсчет предыдущих инцидентов - PullRequest
0 голосов
/ 04 июля 2018

Впервые спрашиваю здесь:

У меня есть данные с датами и людьми, которые представляют события. Я хочу найти способ подсчитать, сколько раз человек был вовлечен ранее. Поэтому я хочу, чтобы данные выглядели так:

df <- data.frame(date = seq(ymd('2018-01-01'),ymd('2018-01-10'), by = '1 day'),
             id = c(1, 2, 3, 4, 3, 5, 2, 2, 1, 4),
             # how many previous times has this id been seen?
             count_before = c(0, 0, 0, 0, 1, 0, 2, 1, 1, 1))

df

   date          person_id count_before
 1 2018-01-01    1.           0.
 2 2018-01-02    2.           0.
 3 2018-01-03    3.           0.
 4 2018-01-04    4.           0.
 5 2018-01-05    3.           1.
 6 2018-01-06    5.           0.
 7 2018-01-07    2.           1.
 8 2018-01-08    2.           2.
 9 2018-01-09    1.           1.
10 2018-01-10    4.           1.

У меня нет опыта работы по строкам в R (возможно, ответ sapply?), Но продумать эту проблему с помощью dplyr summaze и group_by пока не удалось.

Редактировать : исправлено несоответствие в ожидаемом результате.

Ответы [ 3 ]

0 голосов
/ 04 июля 2018

Вот еще одно base R решение. Также подумайте, что у вас есть опечатка в ожидаемом выводе, как упомянуто @ r2evans.

transform(df, count_new = ave(person_id, person_id, FUN = function(x) cumsum(x == x) - 1))
#         date person_id count_before count_new
#1  2018-01-01         1            0         0
#2  2018-01-02         2            0         0
#3  2018-01-03         3            0         0
#4  2018-01-04         4            0         0
#5  2018-01-05         3            1         1
#6  2018-01-06         5            0         0
#7  2018-01-07         2            2         1
#8  2018-01-08         2            1         2
#9  2018-01-09         1            1         1
#10 2018-01-10         4            1         1
0 голосов
/ 04 июля 2018

Решение с использованием data.table.

library(tidyverse)
library(data.table)

df <- data.frame(date = seq(ymd('2018-01-01'),ymd('2018-01-10'), by = '1 day'),
                 id = c(1, 2, 3, 4, 3, 5, 2, 2, 1, 4))

setDT(df)

df[, count_before := seq_len(.N) - 1, by = id]
df
#           date id count_before
#  1: 2018-01-01  1            0
#  2: 2018-01-02  2            0
#  3: 2018-01-03  3            0
#  4: 2018-01-04  4            0
#  5: 2018-01-05  3            1
#  6: 2018-01-06  5            0
#  7: 2018-01-07  2            1
#  8: 2018-01-08  2            2
#  9: 2018-01-09  1            1
# 10: 2018-01-10  4            1

Мы также можем сделать следующее.

df[, count_before := rowid(id) - 1]
df
#           date id count_before
#  1: 2018-01-01  1            0
#  2: 2018-01-02  2            0
#  3: 2018-01-03  3            0
#  4: 2018-01-04  4            0
#  5: 2018-01-05  3            1
#  6: 2018-01-06  5            0
#  7: 2018-01-07  2            1
#  8: 2018-01-08  2            2
#  9: 2018-01-09  1            1
# 10: 2018-01-10  4            1
0 голосов
/ 04 июля 2018

Попробуйте, предоставив то, что, я думаю, вы предполагали в качестве ожидаемого значения.

Использование dplyr:

library(lubridate)
library(dplyr)
df <- data.frame(date = seq(ymd('2018-01-01'),ymd('2018-01-10'), by = '1 day'),
             id = c(1, 2, 3, 4, 3, 5, 2, 2, 1, 4))
df %>%
   arrange(date) %>%
   group_by(id) %>%
   mutate(count_before = row_number() - 1L) %>%
   ungroup()
# # A tibble: 10 × 3
#          date    id count_before
#        <date> <dbl>        <int>
# 1  2018-01-01     1            0
# 2  2018-01-02     2            0
# 3  2018-01-03     3            0
# 4  2018-01-04     4            0
# 5  2018-01-05     3            1
# 6  2018-01-06     5            0
# 7  2018-01-07     2            1
# 8  2018-01-08     2            2
# 9  2018-01-09     1            1
# 10 2018-01-10     4            1

База R:

do.call(rbind, by(df, df$id, function(a) { a$count <- seq.int(nrow(a))-1L; a;}))
#            date id count
# 1.1  2018-01-01  1     0
# 1.9  2018-01-09  1     1
# 2.2  2018-01-02  2     0
# 2.7  2018-01-07  2     1
# 2.8  2018-01-08  2     2
# 3.3  2018-01-03  3     0
# 3.5  2018-01-05  3     1
# 4.4  2018-01-04  4     0
# 4.10 2018-01-10  4     1
# 5    2018-01-06  5     0
...