Агрегатная функция по категориальным признакам с соответствующими двоичными / порядковыми признаками - PullRequest
0 голосов
/ 12 мая 2019

У меня есть датафрейм с данными запуска.

   company  exited  funding_rounds  funding_total   founders_have_degree
0      C1   0                 6           120.000                      1
1      C1   0                 6           120.000                      0
2      C2   1                 2           250.000                      1
3      C2   1                 2           250.000                      1
4      C3   0                 5            50.000                      0

«компания» - это название компании, но оно может появляться несколько раз, поскольку в каждой строке содержится информация о конкретных сотрудниках

«exited» - двоичный файл, 0 означает, что компании не удалось выйти, 1 означает, что она прошла успешно.

"finance_rounds" - это порядковый номер

«funding_total» хранит общую сумму собранных денег и имеет тип (int)

"основатели-хозяева "содержат информацию о том, есть ли у команды-основателя компании ученая степень, но каждая строка предназначена для отдельного сотрудника. 1 указывает, что конкретный основатель имеет степень, 0, что он / она не

-

Как агрегировать на основе «компании», чтобы каждая компания появлялась только один раз, без суммирования числа «funding_rounds» или «funding_total», при суммировании количества степеней основателей?

Я пробовал это, но это не сохраняет всю необходимую информацию:

aggregation_functions = {'founders_have_degree': "sum"}
df_new = df.groupby(df['company']).aggregate(aggregation_functions)

Желаемый результат должен быть таким:

   company  exited  funding_rounds  funding_total   founders_have_degree
0      C1   0                 6           120.000                      1
2      C2   1                 2           250.000                      2
4      C3   0                 5            50.000                      0

1 Ответ

0 голосов
/ 12 мая 2019

использование:

df_new=(df.groupby('company').agg({'exited':'first','funding_rounds':'first',
                      'funding_total':'first','founders_have_degree':'sum'}))

         exited  funding_rounds  funding_total  founders_have_degree
company                                                             
C1            0               6          120.0                     1
C2            1               2          250.0                     2
C3            0               5           50.0                     0
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...