Графики полезных данных авиакомпании в R? - PullRequest
0 голосов
/ 07 декабря 2018

Это исходный набор данных.

structure(list(X1 = c(1L, 2L, 3L, 21L, 22L, 23L), YEAR = c(2018L, 2018L, 2018L, 2018L, 2018L, 2018L), MONTH = c(8L, 8L, 8L, 8L, 8L, 8L), DAY_OF_MONTH = c(12L, 13L, 14L, 1L, 2L, 3L), DAY_OF_WEEK = c(7L, 1L, 2L, 3L, 4L, 5L), OP_UNIQUE_CARRIER = c("AA", "AA", "AA", "AA", "AA", "AA"), ORIGIN_CITY_NAME = c("Greer, SC", "Greer, SC", "Greer, SC", "New York, NY", "New York, NY", "New York, NY"), DEST_CITY_NAME = c("Dallas/Fort Worth, TX", "Dallas/Fort Worth, TX", "Dallas/Fort Worth, TX", "Phoenix, AZ", "Phoenix, AZ", "Phoenix, AZ"), DEP_DELAY = c(-8L, 1L, 0L, 9L, 189L, 0L), ARR_DELAY = c(-17L, -11L, -22L, 44L, 205L, 86L)), row.names = c(NA, -6L), class = c("tbl_df", "tbl", "data.frame"))

Затем я создал еще один фрейм данных, изменил другой столбец и создал при отправлении времени со значениями "вовремя" или "с задержкой"«.Таким образом, они по существу будут только фреймом данных со столбцами OP_UNIQUE_CARRIER, DEP_DELAY, AND DEP_TYPE, ARR_DELAY и ARR_TYPE

structure(list(OP_UNIQUE_CARRIER = c("AA", "AA", "AA", "AA", "AA", "AA"), DEP_DELAY = c(-8L, 1L, 0L, 9L, 189L, 0L), dep_type = c("on time", "on time", "on time", "delayed", "delayed", "on time"), ARR_DELAY = c(-17L, -11L, -22L, 44L, 205L, 86L), arr_type = c("on time", "on time", "on time", "delayed", "delayed", "delayed")), row.names = c(NA, 6L), class = "data.frame")

Я также создал еще один data_frame, который суммировал списокавиалинии и их процентное соотношение по времени полетов и по процентам времени.

structure(list(OP_UNIQUE_CARRIER = c("F9", "B6", "WN", "OH", "AA", "NK"), ot_dep_rate = c(0.479982873046457, 0.493874693734687, 0.554597925278839, 0.585452505609574, 0.58751859857949, 0.608972544579677), ot_departures = c(2242L, 5644L, 28442L, 6262L, 20928L, 4303L), ot_arr_rate = c(0.490687219010918, 0.493437171858593, 0.617366040090477, 0.567969334330591, 0.556441425002105, 0.571610529295216), ot_arrivals = c(2292L, 5639L, 31661L, 6075L, 19821L, 4039L), n_flights = c(4671L, 11428L, 51284L, 10696L, 35621L, 7066L)), row.names = c(NA, -6L), class = c("tbl_df", "tbl", "data.frame"))

Я не знаю, как построить эти точки или получить полезный графический смысл этой идеи.Если бы кто-нибудь мог помочь мне с построением диаграммы рассеяния или гистограммы, а также для проверки гипотезы, это было бы удивительно.Должен ли я использовать тест хи-квадрат?

Что-нибудь поможет, спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...