По существу, задание состоит в том, чтобы найти SD, среднее значение, p-значение и количество людей в каждой категории категориальной переменной из непрерывной переменной.
В качестве примера, имея переменный ИМТ (непрерывный), который имеет ИМТ пациентов, но задание просит нас найти среднее значение и среднеквадратичное отклонение переменного ИМТ в группе «Нет диабета» и группе «Диабет» той же категории переменная.
Первая переменная представляет собой список ИМТ на пациента, вторая переменная указывает, имеет ли ИМТ индивидуум или нет, 1 и 2 для диабета типа 1 и 2, а 3 для отсутствия диабета.
Мое задание состоит в том, чтобы получить значение p, количество индивидуумов, среднее значение и стандартное отклонение у пациентов с ИМТ, у которых диабет, и у людей с ИМТ без диабета, при удалении кого-либо с отсутствующей информацией.
Я пробовал:
mean(ds$bmi[ds$diabetesI==1|ds$diabetesI==2])
Однако это возвращает NA. Я думал об этом, чтобы узнать, смогу ли я получить среднее значение для людей с диабетом 1 и 2 типа, но, как указано выше, это не сработало.
данные
ds <- structure(list(bmi_list = c(23.56748874, 30.2897933, 26.79150092,
29.52347213, 32.60591716, 35.04961743, 21.41223797, 27.46530314,
28.73467206, 21.19391994, 25.59362916, 27.62345679, 34.45651021,
27.48650005, 31.49548668, 26.05817112, 35.83864796, 31.42131479,
22.49134948, 33.99585346, 23.67125363, 22.55335653, 29.41248346,
32.94855347, 23.2915562, 30.37962963, 23.759308, 25.2493372,
29.27315022, 35.26197253), diab4 = c(1L, 1L, 3L, 1L, 1L, 3L,
1L, 1L, 1L, 3L, 1L, 1L, 1L, 1L, 3L, 3L, 3L, 1L, 3L, 1L, 1L, 1L,
3L, 1L, 3L, 1L, 1L, 1L, 1L, 3L)), row.names = c(1L, 2L, 3L, 4L,
5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 16L, 17L, 18L,
19L, 20L, 21L, 22L, 23L, 24L, 25L, 27L, 28L, 30L, 31L, 32L), class =
"data.frame")