Есть ли способ заполнить пропущенные даты с 0, используя dplyr? - PullRequest
0 голосов
/ 23 января 2019

У меня есть такой набор данных:

id  date     value      
1   8/06/12    1         
1   8/08/12    1         
2   8/07/12    2         
2   8/08/12    1         

Каждый идентификатор должен иметь значение для каждой даты.Когда в идентификаторе отсутствует конкретная дата, эту строку необходимо добавить со значением 0. Например,

id  date     value      
1   8/06/12    1   
1   8/07/12    0      
1   8/08/12    1  
2   8/06/12    0         
2   8/07/12    2         
2   8/08/12    1     

Я пытаюсь выяснить, как добавить строки с нулями.Здесь есть хорошее решение: R - заполнить пропущенные даты по группе .Тем не менее, я не могу использовать функцию tidyr::complete, потому что я использую sparklyr и, насколько я знаю, должен оставаться в пределах функций dplyr.

Ответы [ 2 ]

0 голосов
/ 23 января 2019

expand.grid()

Используйте expand.grid() для создания всех комбинаций id и date.Кстати, обратите внимание, чтобы преобразовать вашу дату в класс Date на as.Date(), иначе это будет бессмысленная строка.

df %>% mutate(date = as.Date(date, "%m/%d/%y")) %>%
  right_join(expand.grid(id = unique(.$id), date = unique(.$date))) %>%
  mutate(value = coalesce(value, 0L)) %>% 
  arrange(id, date)

#   id       date value
# 1  1 2012-08-06     1
# 2  1 2012-08-07     0
# 3  1 2012-08-08     1
# 4  2 2012-08-06     0
# 5  2 2012-08-07     2
# 6  2 2012-08-08     1

Воспроизводимые данные

df <- structure(list(id = c(1L, 1L, 2L, 2L), date = c("8/06/12", "8/08/12", 
"8/07/12", "8/08/12"), value = c(1L, 1L, 2L, 1L)), class = "data.frame", row.names = c(NA, 
-4L))
0 голосов
/ 23 января 2019

В sparklyr вы должны использовать функции Spark.Это работа для coalesce.Сначала вы должны заполнить все пары идентификаторов и дат, которые вы ожидаете увидеть, поэтому, возможно, что-то вроде: ( edit )

all_id <- old_data %>% distinct(id) %>% mutate(common=0)
all_date <- old_data %>% distinct(date) %>% mutate(common=0)
all_both <- all_id %>% full_join(all_date,by='common')
data <- old_data %>%
  right_join(all_both %>% select(-common),by=c('id','date')) %>%
  mutate(value=`coalesce(value,0)`)

Я предполагаю, что у вас есть все даты иидентифицирует вас в ваших старых данных, хотя это может быть и не так.

...