Выберите строки идентификаторов, которые имеют шаблон, не теряя другие строки - PullRequest
1 голос
/ 30 марта 2019

У меня есть следующий фрейм данных:

# Example:
_________________________
     | id  | day  | state
-------------------------

 [1,]    1    0    0
 [2,]    1    1    0
 [3,]    1    2    0
 [4,]    1    3    1
 [5,]    1    4    1
 [6,]    1    5    1
 [7,]    1    6    0
 [8,]    1    7    0
 [9,]    1    8    3
[10,]    2    0    0
[11,]    2    1    0
[12,]    2    2    0
[13,]    2    3    1
[14,]    2    4    1
[15,]    2    5    4
[16,]    3    0    0
[17,]    3    1    0
[18,]    3    2    1
[19,]    3    3    0
[20,]    3    4    4
[21,]    4    0    0
[22,]    4    1    1
[23,]    4    2    0
[24,]    4    3    0
[25,]    4    4    0
[26,]    4    5    1
[27,]    4    6    0
[28,]    4    7    3
[29,]    5    0    0
[30,]    5    1    1
[31,]    5    2    1
[32,]    5    3    0
[33,]    5    4    0
[34,]    5    5    4

# Code:
byRow <- TRUE

example.Matrix <- matrix(data = c(1, 0, 0,1, 1, 0,1, 2, 0,1, 3, 1,1, 4, 1,1, 5, 1,1, 6, 
0,1, 7, 0,1, 8, 3,2, 0, 0,2, 1, 0, 2, 2, 0, 2, 3, 1,2, 4, 1,2, 5, 4, 3, 0, 0,3,1, 0,3, 
2, 1,3, 3, 0,3, 4, 4,4, 0, 0, 4, 1, 1, 4, 2, 0,4, 3, 0,4, 4, 0,4, 5, 1,4, 6, 0,4, 7, 3,
5, 0, 0,5, 1, 1,5, 2, 1, 5, 3, 0, 5, 4, 0,5, 5, 4), byrow=TRUE,ncol=3)

example.df<-as.data.frame(example.Matrix)

colnames(example.df) <- c("id", "day", "states")

И я бы хотел сделать следующее:

1) Создайте фрейм данных (или матрицу) с идентификаторами, которые имеют уникальное значение 1 в состояниях, за которым следует что-либо в следующей строке, кроме 1. Так, например, это будет выглядеть примерно так:

# Expected output for first step:
_______________
|id|day|states|
----------------
3  | 2 |   1  |
3  | 3 |   0  |  
3  | 4 |   4  |  
----------------

# Example in code:
matrix.1<-matrix(c(3,2,1,3,3,0,3,4,4), byrow=TRUE,ncol=3)
df.1<-as.data.frame(matrix.1)
colnames(df.1) <- c("id", "day", "states")

Обратите внимание, что в идентификаторе 4, хотя существует состояние, при котором состояния переходят от 1 к 0, они повторно входят в 1, поэтому идентификатор 4 не должен включаться в новый фрейм / матрицу данных.

# Should not be included in expected output for df.1:
_______________
|id|day|states|
----------------
4  | 1 |   1  | #* start 
4  | 2 |   0  | #* meets condition
4  | 3 |   0  | 
4  | 4 |   0  | 
4  | 5 |   0  | 
4  | 6 |   1  | #*reenters 1 - does not meet condition
4  | 7 |   0  | 
4  | 8 |   3  | 
---------------

2) Затем, когда этот фрейм / матрица данных построен, я хочу создать еще один фрейм данных из оригинала (например, с циклом for), но на этот раз это условие для лиц, которые имеют следующий шаблон в состояниях. : 1, затем 1, затем что-нибудь кроме 1. Это будет выглядеть примерно так:

# Expected  output from second step:
_______________
|id|day|states|
----------------
2  | 3 |   1  |
2  | 4 |   1  |  
2  | 5 |   4  |  
5  | 1 |   1  |
5  | 2 |   1  |  
5  | 3 |   0  |  
5  | 4 |   0  |
5  | 5 |   4  |    
----------------

Аналогично идентификаторы не должны повторно вводиться в 1 после выполнения условия

3) После этого я хочу продолжить повторение этого шаблона, поэтому следующий будет для отдельных лиц в штатах: 1, затем 1, затем 1, за которым следует что угодно, кроме 1:

# Expected output from third step:
_______________
|id|day|states|
----------------
1  | 3 |   1  |
1  | 4 |   1  |  
1  | 5 |   1  |  
1  | 6 |   0  |
1  | 7 |   0  |  
1  | 8 |   3  |   
----------------

4) И затем я собираюсь продолжить паттерн до 29 последовательных 1 с.

Итак, в конце я надеюсь получить 30 фреймов / матриц данных с индивидуумами, соответствующими вышеуказанным условиям.

1 Ответ

1 голос
/ 30 марта 2019

Мы создаем функцию для этого

library(data.table)
library(dplyr)
f1 <- function(data, n){
    ids <- data %>%
             mutate(stateslead = lead(states, default = last(states))) %>%
             group_by(grp = rleid(states == 1)) %>% 
             filter(n() == n, states == 1, stateslead != 1) %>%     
             group_by(id) %>%     
             filter(n() == 1) %>%
             pull(id)

    data %>%
       filter(id %in% ids) %>%
       group_by(id) %>% 
       filter(cumsum(states) > 0)



 }

-тестирование

f1(example.df, 1)
#  id day states
#1  3   2      1
#2  3   3      0
#3  3   4      4

f1(example.df, 2)
# A tibble: 8 x 3
# Groups:   id [2]
#     id   day states
#  <dbl> <dbl>  <dbl>
#1     2     3      1
#2     2     4      1
#3     2     5      4
#4     5     1      1
#5     5     2      1
#6     5     3      0
#7     5     4      0
#8     5     5      4

f1(example.df, 3)
#  id day states
#1  1   3      1
#2  1   4      1
#3  1   5      1
#4  1   6      0
#5  1   7      0
#6  1   8      3

Также, если мы хотим сделать это за один шаг, используйте map, чтобы зациклить 'n'

library(purrr)
out1 <- map(1:3, f1, data = example.df)

Для OP 1:3 можно заменить на 1:29. 'Out1' является list из tibble/data.frame s

...