Question

У меня есть дата-кадр, аналогичный приведенному ниже, который содержит даты, которые мне нужны, чтобы узнать, сколько посещений.Но условие для 1 уникального идентификатора, если разница между enddt первой строки и strdt следующей строки составляет <2 после убывания, мы должны рассматривать это как 1 посещение. </p>

data

 id      strdt         enddt    
 ep01    2017-06-23    2017-06-24  
 ep01    2017-06-28    2017-06-30
 ep01    2017-06-25    2017-06-26
 ep02    2017-05-06    2017-05-10
 ep02    2017-05-12    2017-05-14
 ep02    2017-05-15    2017-05-16  
 ep03    2017-05-15    2017-05-16
 ep04    2017-05-15    2017-05-17

Ожидаемый результат:

id     strdt         enddt  
ep01   2017-06-23    2017-06-26
ep01   2017-06-28    2017-06-30
ep02   2017-05-06    2017-05-10
ep02   2017-05-12    2017-05-16 
ep03   2017-05-15    2017-05-16
ep04   2017-05-15    2017-05-17

Пробовал

data = read.csv("data.csv",header = T,stringsAsFactors = F)
unique_id = unique(data$id)
id_data = NULL
for (i in 1: length(unique_id)){
id_data = data[data$id == unique_id[i],]  
id_data = id_data[ order(id_data$strdt , decreasing = F ),]
id_data = ifelse(id_data$enddt - id_data$str_dt < 1, id_data$enddt[2,3],id_data$enddt)   
 }

Я пытался использовать приведенный выше код, но не смог этого сделать.Заранее спасибо.

Prem · Answer 1 · 29 мая 2018

Другой подход может заключаться в группировании строк, которые должны быть объединены для расчета даты начала и окончания.Обратите внимание на столбец flag перед окончательным оператором group_by

library(dplyr)
library(data.table)

df %>%
  arrange(id, strdt) %>%
  group_by(id) %>%
  mutate(flag = as.numeric(strdt - lag(enddt, order_by = id, default = first(strdt)))) %>%
  mutate(flag = rleid(ifelse((flag < 2 & row_number() != 1) | lead(flag, order_by = id, default = 9999) < 2, 
                             9999, 
                             row_number()))) %>%  #final grouping happened here
  group_by(id, flag) %>%
  summarise(strdt = first(strdt),
            enddt = last(enddt)) %>%
  select(-flag)

Вывод:

  id    strdt      enddt     
1 ep01  2017-06-23 2017-06-26
2 ep01  2017-06-28 2017-06-30
3 ep02  2017-05-06 2017-05-10
4 ep02  2017-05-12 2017-05-16
5 ep03  2017-05-15 2017-05-16
6 ep04  2017-05-15 2017-05-17

Пример данных:

df <- structure(list(id = c("ep01", "ep01", "ep01", "ep02", "ep02", 
"ep02", "ep03", "ep04"), strdt = structure(c(17340, 17345, 17342, 
17292, 17298, 17301, 17301, 17301), class = "Date"), enddt = structure(c(17341, 
17347, 17343, 17296, 17300, 17302, 17302, 17303), class = "Date")), .Names = c("id", 
"strdt", "enddt"), row.names = c(NA, -8L), class = "data.frame")

penguin · Answer 2 · 29 мая 2018

lead функция из dplyr может быть полезна для вашей проблемы.https://www.rdocumentation.org/packages/dplyr/versions/0.7.3/topics/lead-lag

Я не создал полностью работающее решение, но логика может быть выведена из следующего кода

library("dplyr")
dat <- data.frame(id <- c("ep01", "ep01", "ep01", "ep02", "ep02", "ep02", "ep03", "ep04"),
                   startdt <- as.Date(c("2017-06-23", "2017-06-28", "2017-06-25", "2017-05-06", "2017-05-12", "2017-05-15", "2017-05-15", "2017-05-15")),
                   enddt <- as.Date(c("2017-06-24", "2017-06-30", "2017-06-26", "2017-05-10", "2017-05-14", "2017-05-16", "2017-05-16", "2017-05-17"))
)

colnames(dat) <- c("id", "startdt", "enddt")


# get next start date, you can use dplyr::group_by() to get next start date for each id
dat$start_lead <- lead(dat$startdt)

# calculate difference between next start date and current end date, if diff < 2, then reject otherwise accept
dat$is_less_thn_2 <- ifelse(dat$start_lead - dat$enddt < 2, 0, 1)

# get next diff value
dat$take_enddt_value <- lead(dat$is_less_thn_2)

# This part won't compile
for(i in 1:nrow(dat)) {
  # if take_enddt_value is 0, iterate until take_enddt_value is 1, set current enddt value to enddt with take_enddt_value = 1
  if (dat[i, "take_enddt_value"] == 0){
    k = i
    while(dat[k, "take_enddt_value"] == 0){
      k = k + 1
    }
    dat[i, "enddt"] <- dat[k, "enddt"]
  }
}

Как найти разницу между двумя датами, лежащими в разных строках в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как найти разницу между двумя датами, лежащими в разных строках в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов