В R есть более эффективная память, альтернативная использованию 'group_by' с последующим 'mutate' - PullRequest
1 голос
/ 09 марта 2019

Я использую большой набор данных и пытаюсь получить сводную статистику. В частности, я хочу найти среднее значение / SD для числа уникальных препаратов, которые были назначены группе пациентов (т.е. у меня уже есть среднее значение / SD для общего количества препаратов, но я также хочу отразить количество разные лекарства, которые пациент принимал в среднем).

Следующий фрагмент кода работал для предыдущих (меньших) групп, но, в частности, строки со 2 по 4, похоже, замедляют работу.

DF %>% 
group_by(patientID) %>%
mutate(total_unique_med = n_distinct(drug_name) %>%
ungroup() %>%
summarise(   
mean = mean(total_unique_med),
sd = sd(total_unique_med) )

Есть ли более подходящая / эффективная память альтернатива group_by / mutate для использования при работе с большими наборами данных?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...