Группировать по одной переменной, но суммарно () по всем другим переменным (средним) в R - PullRequest
0 голосов
/ 27 марта 2019

Я знаю, что об этом уже есть некоторые темы, но я еще не нашел ни одной об этой конкретной проблеме.Зависимой переменной в моем наборе данных является Y, и у меня 144 независимых переменных.Y и X могут принимать только значения 1 или 0. Данные выглядят так:

          Y    A469 T593 K022K A835 Z935 U83F W5326  ...
 Person1  1      1    1    1     0    0    0    0
 Person2  1      0    1    0     1    1    0    0
 Person3  0      0    0    1     0    0    1    1
 ...
summary(dataset)

просто предоставляет описательную статистику по всем наблюдениям.Я хочу (в псевдокоде):

summary(all variables if Y == 1 and Y == 0)

Было бы здорово, если бы я мог видеть, как часто определенный X встречается при определенном значении Y. Например, среднее (X4) = 0,04и считать = 6, если Y = 1.

1 Ответ

2 голосов
/ 27 марта 2019

РЕДАКТИРОВАТЬ 2 после комментариев Акруна и Грегора вот решение

 data_summary <- dataset %>% group_by(y) %>% 
    mutate(n = n()) %>%
    summarise_all(mean)

Если вы хотите увидеть больше столбцов, чем умещается на вашем экране, вы можете попробовать, например,

  • print(data_summary, width = 20)
  • View(data_summary)
  • select(data_summary, <<particular columns you want to see>>)
  • ...
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...