Почему dplyr group_by и обобщение не работает? - PullRequest
1 голос
/ 23 октября 2019

Я пытаюсь получить среднее значение для каждого поднабора данных в моем наборе данных, но мой вывод просто дает мне среднее значение для всего набора данных для каждого поднабора данных. Я думаю, что это может быть проблемой с тем, как структурирован мой набор данных: данные состоят из x и y наблюдений для 13 поднаборов данных , которые имеют следующие имена: dino, away, h_lines, v_lines, x_shape, star, high_lines, dots, circle, bullseye, slant_up, slant_down, wide_lines. Имена поднабора данных перечислены в столбце под названием «набор данных» (см. Пример изображения ниже).

фрагмент набора данных

Я использую функции dplyr group_by () и подвести итог (). Я видел очень много примеров, где это работает, поэтому я не уверен, где я иду не так.

Это то, что я пытался

dinodata%>%
  dplyr::group_by(dataset)%>%
  dplyr::summarize(mean_x = mean(x),
            mean_y = mean(y),
            sd_x = sd(x),
            sd_y = sd(y),
            correlation = cor(x,y)
            )

, и этоoutput

# A tibble: 13 x 6
   dataset    mean_x mean_y  sd_x  sd_y correlation
   <chr>       <dbl>  <dbl> <dbl> <dbl>       <dbl>
 1 away         54.3   47.8  16.8  26.9     -0.0641
 2 bullseye     54.3   47.8  16.8  26.9     -0.0686
 3 circle       54.3   47.8  16.8  26.9     -0.0683
 4 dino         54.3   47.8  16.8  26.9     -0.0645
 5 dots         54.3   47.8  16.8  26.9     -0.0603
 6 h_lines      54.3   47.8  16.8  26.9     -0.0617
 7 high_lines   54.3   47.8  16.8  26.9     -0.0685
 8 slant_down   54.3   47.8  16.8  26.9     -0.0690
 9 slant_up     54.3   47.8  16.8  26.9     -0.0686
10 star         54.3   47.8  16.8  26.9     -0.0630
11 v_lines      54.3   47.8  16.8  26.9     -0.0694
12 wide_lines   54.3   47.8  16.8  26.9     -0.0666
13 x_shape      54.3   47.8  16.8  26.9     -0.0656

Средние и стандартные отклонения рассчитываются так же, как если бы я имел в виду (dinodata $ x) и sd (dinodata $ x), что не то, что я хочу. Я хочу среднее значение для каждого поднабора данных для x и y и т. Д.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...