Question

У меня есть набор данных, который выглядит следующим образом:

  group id      date1      date2      date3      date4
1     1  1 1991-10-14 1992-05-20 1992-12-09 1993-06-30
2     1  2       <NA> 1992-05-21 1992-12-10 1993-06-29
3     1  3       <NA>       <NA> 1992-12-08 1993-06-29
4     1  4 1991-10-14 1992-05-19       <NA>       <NA>
5     1  5 1991-10-15 1992-05-21       <NA> 1993-06-30
6     1  6 1991-10-15       <NA>       <NA> 1993-06-30

Здесь данные представлены в формате R:

structure(list(group = c(1L, 1L, 1L, 1L, 1L, 1L), 
               id = 1:6, 
               date1 = structure(c(7956, NA, NA, 7956, 7957, 7957), class = "Date"), 
               date2 = structure(c(8175, 8176, NA, 8174, 8176, NA), class = "Date"), 
               date3 = structure(c(8378, 8379, 8377, NA, NA, NA), class = "Date"), 
               date4 = structure(c(8581, 8580, 8580, NA, 8581, 8581), class = "Date")), 
          .Names = c("group", "id", "date1", "date2", "date3", "date4"),
          row.names = c(NA, 6L), class = "data.frame")

То есть у нас есть переменная группировки, несколько человек ичетыре возможных даты интереса.

Теперь я хочу построить из этого линейную месячную временную динамику для каждого человека.Другими словами, я пытаюсь построить тренд со значением 1 в первую не NA дату.После этого тренд для оставшихся не NA периодов - это месяцы, прошедшие с первой не NA даты.

Моя цель - эта структура (отдельный 1, группа 1):

  group id period trend
1     1  1      1     1
2     1  1      2     8
3     1  1      3    15
4     1  1      4    21

То есть расплавленный фрейм данных с месяцами, прошедшими с t = 1 .

Я поиграл с идеями из этой темы: Количество месяцев между двумя датами .Тем не менее, я не могу найти решение, которое не включает в себя for -цикличность и и мучительное количество if -статий.

Любая помощь приветствуется!

Wimpel · Answer 1 · 23 ноября 2018

data.table подход

Я оставляю округление и / или добавляю +1 к тебе ... это всегда сложно с месяцами.Я лично стараюсь избегать этого и рассчитываю дни или недели (или почти все, НО месяцы) ...

library( data.table)
dt <- melt ( as.data.table( df ), id.vars = c("group", "id"), variable.name = "date_id", value.name = "date" )
setkey(dt, id, group, date_id)
dt[, diff := lubridate::interval(  date[which.min( date ) ], date ) / months(1) , by = c("group", "id")]

head(dt)
#    group id date_id       date      diff
# 1:     1  1   date1 1991-10-14  0.000000
# 2:     1  1   date2 1992-05-20  7.193548
# 3:     1  1   date3 1992-12-09 13.833333
# 4:     1  1   date4 1993-06-30 20.533333
# 5:     1  2   date1       <NA>        NA
# 6:     1  2   date2 1992-05-21  0.000000

Gopala · Answer 2 · 22 ноября 2018

Вот одно из возможных решений с использованием dplyr и tidyr:

library(dplyr)
library(tidyr)
library(stringr)

df %>%
  gather(period, date, -group, -id) %>%
  arrange(group, id, period) %>%
  mutate(date = as.Date(date)) %>%
  group_by(group, id) %>%
  filter(!all(is.na(date))) %>% 
  mutate(
    trend = as.integer(
      floor(difftime(date, date[which.max(!is.na(date))], units = 'days') / 30)
      ) + 1,
    period = str_replace(period, 'date', '')
    ) %>%
  select(-date)

Вывод выглядит следующим образом:

# A tibble: 24 x 4
# Groups:   group, id [6]
   group    id period trend
   <int> <int>  <chr> <dbl>
 1     1     1      1     1
 2     1     1      2     8
 3     1     1      3    15
 4     1     1      4    21
 5     1     2      1    NA
 6     1     2      2     1
 7     1     2      3     7
 8     1     2      4    14
 9     1     3      1    NA
10     1     3      2    NA
# ... with 14 more rows

ПРИМЕЧАНИЕ. Отредактировано для добавления фильтра для фильтрации.случаи, когда ВСЕ даты равны NA для данной группы / идентификатора.В противном случае which,max не удастся.

Ежемесячный тренд времени от датафрейма дат

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ежемесячный тренд времени от датафрейма дат

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы