Я использую большой набор данных и пытаюсь получить сводную статистику. В частности, я хочу найти среднее значение / SD для числа уникальных препаратов, которые были назначены группе пациентов (т.е. у меня уже есть среднее значение / SD для общего количества препаратов, но я также хочу отразить количество разные лекарства, которые пациент принимал в среднем).
Следующий фрагмент кода работал для предыдущих (меньших) групп, но, в частности, строки со 2 по 4, похоже, замедляют работу.
DF %>%
group_by(patientID) %>%
mutate(total_unique_med = n_distinct(drug_name) %>%
ungroup() %>%
summarise(
mean = mean(total_unique_med),
sd = sd(total_unique_med) )
Есть ли более подходящая / эффективная память альтернатива group_by / mutate для использования при работе с большими наборами данных?