Я работаю через "R for Data Science" от Grolemund, и мне задают вопрос, чтобы оценить некоторые данные. Данные поступают из набора данных nycflights13
. Я просто пытаюсь понять интерпретацию mean()
Функция, как я применил.
delay_char = flights %>%
group_by() %>%
summarize(n = n(),
fifteen_early = mean(arr_delay == - 15, na.rm = T)
Что я хочу понять, это то, что значение было рассчитано как среднее значение? Я считаю, что в результате программы была доля рейсов из всего набора данных, которые имеюткритерии arr_delay == -15
. Но это не среднее значение. Нужно ли мне использовать другие критерии поверх arr_delay == -15
, чтобы получить среднее значение, относящееся к этому конкретному подмножеству?
Я думаю, что я мог частично ответитьмой собственный вопрос, но мне все еще интересно, что R сделал в моей строке кода.