Создайте новую переменную, используя dplyr, где, в зависимости от того, имеет ли одна переменная конкретное значение И предыдущее или следующее значение имеет другое значение в R - PullRequest
0 голосов
/ 27 июня 2018

У меня есть данные, которые выглядят так

df <- data.frame(
ID = c(rep("A12345",5), rep("A23456",10), rep("A34567",5), "A45678", "A67891", rep("A78910",8), "A91011", 
       rep("A10111",4), rep("A11121",3), "A12131", "A16731"),
medication = c(rep("colchicine",5), rep("febuxosat",9), "hosps", rep("colchicine",5), "hosps", "colchicine", 
              rep("allopurinol",8), "allopurinol", 
              rep("colchicine",3), "hosps", rep("colchicine",3), "colchicine", "allopurinol"),
Date = c("2004-12-08", "2005-01-28", "2005-07-15", "2005-08-23", "2005-11-30", "2007-02-01", "2007-07-20", "2014-06-03", 
         "2008-04-17",
         "2008-12-19", "2009-09-09", "2010-02-24", "2010-11-01", "2010-12-03", "2011-08-10", "2012-11-05", "2012-12-17", 
         "2012-12-19", "2013-10-03", "2013-12-11", "2014-03-26", "2015-11-12", "2014-08-07", "2008-01-31", "2008-02-21", 
         "2008-09-19", "2008-11-06", "2009-01-06", "2009-01-14", "2009-03-25", "2009-03-27", "2009-06-18", "2009-08-18", 
         "2009-09-08", "2009-11-13", "2010-01-21", "2010-04-19", "2010-07-07", "2010-08-06", "2010-08-19")
)

Затем я хочу создать новую переменную года, основанную на дате; сгруппируйте всех вместе на основе года и их уникального идентификатора и вычислите переменную, которая измеряет, сколько раз они получали лекарства в этом году для этого уникального идентификатора.

df <- df %>%
mutate(year = as.numeric(substr(Date, 1,4))) %>%
group_by(ID) %>%
mutate(meds_count = ifelse(medication %in% c("colchicine", "allopurinol", "febuxosat"), 1, 0)) %>%
unite(ID_year, ID, year, sep = "_", remove = FALSE) %>%
group_by(ID_year) %>%
mutate(meds_sum = sum(meds_count)) %>%
distinct(ID_year, .keep_all = TRUE) 

Затем я создаю новую переменную 'подагра', значение которой равно единице, если переменная meds_sum равна или больше 4; в противном случае 0.

df <- df %>%
mutate(gout = ifelse(meds_sum >= 4, 1, 0))

Затем я хочу создать новую переменную 'gout2', значение которой равно единице, если переменная meds_sum равна или больше четырех, и равно единице, если значение meds_sum не равно нулю в год до или после. Это то, что я пытаюсь сделать для этого последнего шага, но lead () и lag () создают значения NA в этом коде.

 df <- df %>% 
 mutate(gout2 = ifelse((meds_sum >= 4 & ((lead(meds_sum) >= 1 | lag(meds_sum)) >= 1)), 1, 0))

Может кто-нибудь сказать мне, что я делаю не так?

Я бы хотел, чтобы вывод выглядел так:

df$gout2 <- c(0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0)

1 Ответ

0 голосов
/ 27 июня 2018

Используйте этот код для последнего шага, вам нужно использовать group_by (), чтобы сгруппировать переменную "ID", чтобы получить желаемый эффект.

df <- df %>% 
  group_by(ID)%>%
  mutate(gout2 = ifelse((meds_sum >= 4 & ((lead(meds_sum) >= 1 | lag(meds_sum)) >= 1)), 1, 0))

надеюсь, это поможет (Y) @ Лаура

...