Набор данных доступен на Kaggle:
https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results/
Мне нужно использовать dplyr для создания объекта, который содержит для каждого
комбинация Sex
и Season
, количество различных видов спорта в наборе данных.
Сначала я сгруппировал набор данных по полу, сезону и спорту, суммировал их, и я получил таблицу со слишком большим количеством строк с колонкой «Секс, сезон и спорт». Это неправильно. Затем я использовал n () в функции суммирования, которая вернула мне тот же результат, только с еще одним столбцом: количество людей
final_group<- group_by(dataset, Sex, Season)
final_group_1 <- summarise(final_group)
тогда я попробовал:
final_group<- group_by(dataset, Sex, Season)
final_group_1 <- summarise(final_group, n())
оба не вернули то, что я хочу.
Мне нужны только 4 строки с суммами всех видов спорта, проводимых летом или зимой для каждого пола, как показано в примере ниже:
Sex Season Num_sports
Male summer ( all sports played by males in the summer )
Male winter ( all sports played by males in the winter )
Female summer ( all sports played by females in the summer )
Female winter ( all sports played by females in the winter )