Стандартизация дат в фрейме данных длинного формата - PullRequest
1 голос
/ 25 мая 2020

У меня есть фрейм данных, содержащий ежедневные случаи COVID и смертей для каждого штата Бразилии, например:

state   date                cases            deaths
 RO 2020-03-20               1                0
 RO 2020-03-21               1                0
 RO 2020-03-22               3                0
 RO 2020-03-23               3                0
 RO 2020-03-24               3                0
 RO 2020-03-25               5                0

Моя проблема в том, что штаты начинаются в разные даты, хотя все они заканчиваются 2020-05-24. Например, RO начинается 20 марта 2020 года, а AC начинается 19 марта 2020 года. Есть ли какой-нибудь метод, который я могу использовать для их стандартизации, чтобы каждый штат начинался 26 февраля 2020 г.?

1 Ответ

2 голосов
/ 25 мая 2020

Предполагая, что 'date' - это класс Date, один ption будет complete

library(dplyr)
library(tidyr)
df1 %>%
   group_by(state, region) %>%
   complete(date = seq(as.Date('2020-02-26'), last(date), by = '1 day')) %>%
   ungroup

По умолчанию недостающие даты, добавленные с помощью complete, будут иметь другие столбцы, то есть 'case', 'смерти' для этих строк как NA, если мы не изменим с помощью fill аргумента

...