Количество аварий и травм? - PullRequest
0 голосов
/ 15 марта 2020

У меня есть набор данных с сайта dot.gov, который я должен проанализировать в рамках нашего школьного проекта. Он содержит много информации, но я просто концентрируюсь на авариях и травмах. Например, как подсчитать количество аварий или травм за 2007–2014 годы?

Нужно ли подманивать свои данные в год или есть более эффективный способ сделать это? Спасибо!

Ниже приведен образец моего набора данных: Sample dataset

1 Ответ

1 голос
/ 15 марта 2020

Без воспроизводимого примера набора данных, на котором мы можем протестировать наш код, трудно быть уверенным, что он будет работать, но, используя пакеты dplyr и lubridate, вы можете попробовать (при условии, что ваш набор данных звонил df):

library(dplyr)
library(lubridate)
df %>% mutate(YEARTXT = ymd(YEARTXT)) %>%
  mutate(Year = year(YEARTXT)) %>%
  filter(Year %in% 2007:2014) %>%
  summarise(INJURED = sum(INJURED, na.rm = FALSE),
            CRASH = sum(CRASH == "Y"))

Чтобы получить количество Cra sh и раненых за год, вы можете добавить group_by к следующей последовательности, такой как:

df %>% mutate(YEARTXT = ymd(YEARTXT)) %>%
  mutate(Year = year(YEARTXT)) %>%
  group_by(Year) %>%
  filter(Year %in% 2007:2014) %>%
  summarise(INJURED = sum(INJURED, na.rm = FALSE),
            CRASH = sum(CRASH == "Y"))

Если это не работает, приведите воспроизводимый пример набора данных: Как создать отличный воспроизводимый пример R

...