Справка по набору данных COVID-19 - вычисление переменных - PullRequest
0 голосов
/ 04 мая 2020

Я - исследователь, работающий над набором данных COVID-19 (общедоступный с европейского CD C). Я пытаюсь заставить R вычислить переменную «кумулятивных случаев», которая суммирует общее количество случаев по «dateRep» за все предыдущие даты конкретной страны. Смотрите прикрепленный скриншот из Excel. Любые мысли о том, как вы будете кодировать и вычислять это в R? Спасибо, я очень ценю это!

Ссылка на набор данных

enter image description here

1 Ответ

1 голос
/ 04 мая 2020

Используя data.table, где ваш фрейм данных называется df1, сначала преобразуйте его в data.table, затем используйте функцию cumsum() с помощью (и упорядочено, потому что я использовал keyby = вместо by =) страна.

library(data.table)
setDT(df1)
dt1[, cases_cumulative := cumsum(cases), keyby = countriesAndTerritories]

Data.tables основаны на базовой структуре данных c R data.frame, но предлагают улучшенную функциональность, эффективность и скорость. В аннотации data.table используется DT[i,j,by] - что очень просто сделать поднабор или упорядочение на i, затем выбрать или сделать j сгруппированный by.

В качестве альтернативы, используя tidyverse, используйте group_by() и mutate():

library(tidyverse)
df1 %>% 
  group_by(countriesAndTerritories) %>% 
  mutate(cum_cases = cumsum(cases))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...