Я пытаюсь получить среднее значение для каждого поднабора данных в моем наборе данных, но мой вывод просто дает мне среднее значение для всего набора данных для каждого поднабора данных. Я думаю, что это может быть проблемой с тем, как структурирован мой набор данных: данные состоят из x и y наблюдений для 13 поднаборов данных , которые имеют следующие имена: dino
, away
, h_lines
, v_lines
, x_shape
, star
, high_lines
, dots
, circle
, bullseye
, slant_up
, slant_down
, wide_lines
. Имена поднабора данных перечислены в столбце под названием «набор данных» (см. Пример изображения ниже).
фрагмент набора данных
Я использую функции dplyr group_by () и подвести итог (). Я видел очень много примеров, где это работает, поэтому я не уверен, где я иду не так.
Это то, что я пытался
dinodata%>%
dplyr::group_by(dataset)%>%
dplyr::summarize(mean_x = mean(x),
mean_y = mean(y),
sd_x = sd(x),
sd_y = sd(y),
correlation = cor(x,y)
)
, и этоoutput
# A tibble: 13 x 6
dataset mean_x mean_y sd_x sd_y correlation
<chr> <dbl> <dbl> <dbl> <dbl> <dbl>
1 away 54.3 47.8 16.8 26.9 -0.0641
2 bullseye 54.3 47.8 16.8 26.9 -0.0686
3 circle 54.3 47.8 16.8 26.9 -0.0683
4 dino 54.3 47.8 16.8 26.9 -0.0645
5 dots 54.3 47.8 16.8 26.9 -0.0603
6 h_lines 54.3 47.8 16.8 26.9 -0.0617
7 high_lines 54.3 47.8 16.8 26.9 -0.0685
8 slant_down 54.3 47.8 16.8 26.9 -0.0690
9 slant_up 54.3 47.8 16.8 26.9 -0.0686
10 star 54.3 47.8 16.8 26.9 -0.0630
11 v_lines 54.3 47.8 16.8 26.9 -0.0694
12 wide_lines 54.3 47.8 16.8 26.9 -0.0666
13 x_shape 54.3 47.8 16.8 26.9 -0.0656
Средние и стандартные отклонения рассчитываются так же, как если бы я имел в виду (dinodata $ x) и sd (dinodata $ x), что не то, что я хочу. Я хочу среднее значение для каждого поднабора данных для x и y и т. Д.