Анализ данных в R с пакетом nycfights13 - PullRequest
0 голосов
/ 30 января 2019

Я пытаюсь выяснить, какие направления имеют самый высокий показатель задержек рейсов.Например, у LAX 10 рейсов, и 3 из них задерживаются, задержанная ставка для LAX составит 30%.Это то, что я имею до сих пор, я просто не могу понять формулу правильно.

flights %>% 
  group_by(dest) %>% 
  summarise(delay_rate = n_distinct(flight) / n_distinct(dep_delay)) %>% 
  arrange(desc(delay_rate)) %>% 
  view()

1 Ответ

0 голосов
/ 31 января 2019
flights %>% 
  group_by(dest) %>% 
  summarise(delay_rate = n_distinct(dep_delay > 0) / n() * 100) %>% 
  arrange(desc(delay_rate)) %>% 
  View()

, где n_distinct(dep_delay > 0) - количество рейсов с задержкой, а n() - количество полетов

.
...