Я являюсь студентом c, работающим в сфере здравоохранения, и изучаю программирование на R для исследований в области здравоохранения и эпидемиологии. В настоящее время я работаю над набором данных, показанным ниже: набор данных
Что Я пытаюсь сделать здесь, чтобы преобразовать возрастную группу в возрастную категорию, например (0-20), (21-40), (41-60) и так далее. И я хочу увидеть среднее и стандартное отклонение для конкретного типа c заболевания, например, NKEP для каждой возрастной категории. Для преобразования возраста в возрастную категорию я следую этому коду:
library(dplyr)
practice$agegroup= cut(practice$age, breaks = c(0,20,40,60,80,100),labels = c("0-20","21-40","41-60","61-80","81-100"),right = TRUE)
и, чтобы увидеть тип заболевания по возрастной категории, я попробовал это:
practice %>% group_by(agegroup) %>% count(agegroup,dtype)
, получая таким образом этот вывод :
# A tibble: 22 x 3
# Groups: agegroup [5]
agegroup dtype n
<fct> <chr> <int>
1 0-20 KATF 6
2 0-20 NKA 427
3 0-20 PKDL 264
4 0-20 RELAPSE 44
5 21-40 CL 5
6 21-40 KATF 2
7 21-40 NKA 440
8 21-40 PKDL 285
9 21-40 RELAPSE 106
10 41-60 CL 2
# ... with 12 more rows''
Теперь можно ли сделать 2 новые переменные категории для каждой строки, которые будут показывать среднее и стандартное отклонение для каждого типа заболевания и возрастной категории? Я пытаюсь запустить базовую команду, а также использовать пакеты tidyverse, dplyr и doby, но каждый раз, когда я включаю agecatagory для SD и MEAN, он показывает ошибку вроде - «переменная должна быть цифрой c», или «переменные не имеют одинаковую длину» et c.
Как я могу решить эту проблему? Неужели вновь созданная «возрастная категория» как-то неправильно преобразована? Как я могу получить среднее значение и стандартное отклонение для каждой категории? Мне отчаянно нужна твоя помощь и предложение. -Спасибо