Количество раз, которое значение появилось в последних x строках группы - PullRequest
0 голосов
/ 11 июня 2018

У меня есть датафрейм, подобный следующему

dataDF <- data.frame(
  group = c(rep('a', 10), rep('b', 10)),
  value = c(4, 4, 4, 3, 4, 3, 4, 3, 3, 3,
            3, 1, 1, 1, 3, 1, 3, 2, 3, 1)
)

Я хочу узнать, сколько раз каждое значение появлялось в группе за последние 5 записей (или если у него еще не было 5 строк, тогдаобщее количество пока).

Таким образом, я бы в итоге получил:

   group value number_l5
1      a     4         1
2      a     4         2
3      a     4         3
4      a     3         1
5      a     4         4
6      a     3         2
7      a     4         3
8      a     3         3
9      a     3         3
10     a     3         4
11     b     3         1
12     b     1         1
13     b     1         2
14     b     1         3
15     b     3         2
16     b     1         4
17     b     3         2
18     b     2         1
19     b     3         3
20     b     1         2

Итак, в первых трех строках значение равно 4 для каждой строки, поэтому совокупный счет равен 1,2,3.4-й ряд - это первый раз, когда мы видим 3, поэтому счет равен 1. К тому времени, как вы пройдете 5-й ряд, мы смотрим только на последние пять строк, поэтому в 7-м ряду мы считаем количество 4 от 3-го ряда до7, получая 3. Как только вы попадаете в строку 11, начинается новая группа 'b', и мы начинаем снова.

Хотелось бы делать с dplyr и group_by, если возможно

Спасибозаранее

РЕДАКТИРОВАТЬ: Первоначально попросил пропорции, чтобы сделать проще и, надеюсь, более ясным изменились, чтобы попросить номер.Извиняюсь за любую путаницу!

Ответы [ 2 ]

0 голосов
/ 11 июня 2018
dataDF%>%
  group_by(group)%>%
  mutate(i=1:n(),value1=list(value))%>%
  group_by(group,i)%>%
  mutate(proportion=mean(value==unlist(value1)[if(i<5)1:i else i:(i-4)]))%>%
  ungroup()%>%
  select(-i,-value1)
# A tibble: 20 x 3
   group value proportion
   <fct> <dbl>      <dbl>
 1 a        4.      1.00 
 2 a        4.      1.00 
 3 a        4.      1.00 
 4 a        3.      0.250
 5 a        4.      0.800
 6 a        3.      0.400
 7 a        4.      0.600
 8 a        3.      0.600
 9 a        3.      0.600
10 a        3.      0.800
11 b        3.      1.00 
12 b        1.      0.500
13 b        1.      0.667
14 b        1.      0.750
15 b        3.      0.400
16 b        1.      0.800
17 b        3.      0.400
18 b        2.      0.200
19 b        3.      0.600
20 b        1.      0.400
> 
0 голосов
/ 11 июня 2018

Вы можете использовать zoo::rollapply для этого;Здесь установите размер окна как 5 и partial=T, чтобы включить первые несколько элементов;sum(v == tail(v, 1)) - для расчета количества появлений последнего элемента в каждом окне:

library(dplyr)
library(zoo)

dataDF %>% 
    group_by(group) %>% 
    mutate(proportion = rollapply(value, 5, function(v) sum(v == tail(v, 1)), partial=T, align='right'))

# A tibble: 20 x 3
# Groups:   group [2]
#   group value proportion
#   <fct> <dbl>      <int>
# 1 a         4          1
# 2 a         4          2
# 3 a         4          3
# 4 a         3          1
# 5 a         4          4
# 6 a         3          2
# 7 a         4          3
# 8 a         3          3
# 9 a         3          3
#10 a         3          4
#11 b         3          1
#12 b         1          1
#13 b         1          2
#14 b         1          3
#15 b         3          2
#16 b         1          4
#17 b         3          2
#18 b         2          1
#19 b         3          3
#20 b         1          2
...