Объяснение для функции агрегата и cbind - PullRequest
0 голосов
/ 21 сентября 2018

во-первых, я не могу понять агрегатную функцию и cbind. Мне нужны объяснения очень простыми словами, во-вторых, у меня есть данные

permno number         mean        std
1   10107    120 0.0117174000 0.06802718
2   11850    120 0.0024398083 0.04594591
3   12060    120 0.0005072167 0.08544500
4   12490    120 0.0063569167 0.05325215
5   14593    120 0.0200060583 0.08865493
6   19561    120 0.0154743500 0.07771348
7   25785    120 0.0184815583 0.16510082
8   27983    120 0.0025951333 0.09538822
9   55976    120 0.0092889000 0.04812975
10  59328    120 0.0098526167 0.07135423

Мне нужно обработать это с помощью

data_processed2 <- aggregate(cbind(return)~permno, Data_summary, median)

Я не могупонять эту команду, пожалуйста, объясните мне очень просто СПАСИБО!

1 Ответ

0 голосов
/ 21 сентября 2018

cbind берет две или более таблиц (фреймов данных), помещает их рядом, а затем превращает их в одну большую таблицу.Так, например, если у вас есть одна таблица со столбцами A, B и C, а другая - со столбцами D и E, после cbind их будет одна таблица с пятью столбцами: A, B, C, D иE. для строк, cbind предполагает, что все таблицы находятся в одинаковом порядке.Как отметил Руи, в вашем примере cbind ничего не делает, потому что return - это не таблица, и даже если это так, это всего лишь одна вещь.

aggregate берет таблицу, делит еепо некоторой переменной, и вычисляет статистику по переменной в каждой группе.Например, если у меня есть данные о продажах по месяцам и дням месяца, я могу агрегировать по месяцам и рассчитывать средние продажи за день для каждого из месяцев.

В предоставленной вами команде используется следующий синтаксис:

aggregate(VARIABLES~GROUPING, DATA, FUNCTION)

Переменные (cbind(return) - что на самом деле не имеет смысла) - это список всех переменных, для которых будет рассчитываться ваша статистика. Группировка (pernmo) - это переменная, по которой выбудет разбивать данные на группы (в предоставленных вами примерах данных каждая строка имеет уникальный номер для этой переменной, так что это тоже не имеет смысла).Данные - это фрейм данных, который вы используете.Функция является медианой.

Таким образом, этот вызов разбит Data_summery на группы с одинаковым pernmo и вычислит медиану для каждого из столбцов.

С предоставленными вами данными вы 'В основном я получу ту же таблицу обратно, так как вы группируете данные по группам по одной строке в каждой ... - На самом деле, поскольку ваши переменные являются пустой группой, насколько я могу судить, вы ничего не получите обратно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...