У меня есть датафрейм с данными запуска.
company exited funding_rounds funding_total founders_have_degree
0 C1 0 6 120.000 1
1 C1 0 6 120.000 0
2 C2 1 2 250.000 1
3 C2 1 2 250.000 1
4 C3 0 5 50.000 0
«компания» - это название компании, но оно может появляться несколько раз, поскольку в каждой строке содержится информация о конкретных сотрудниках
«exited» - двоичный файл, 0 означает, что компании не удалось выйти, 1 означает, что она прошла успешно.
"finance_rounds" - это порядковый номер
«funding_total» хранит общую сумму собранных денег и имеет тип (int)
"основатели-хозяева "содержат информацию о том, есть ли у команды-основателя компании ученая степень, но каждая строка предназначена для отдельного сотрудника. 1 указывает, что конкретный основатель имеет степень, 0, что он / она не
-
Как агрегировать на основе «компании», чтобы каждая компания появлялась только один раз, без суммирования числа «funding_rounds» или «funding_total», при суммировании количества степеней основателей?
Я пробовал это, но это не сохраняет всю необходимую информацию:
aggregation_functions = {'founders_have_degree': "sum"}
df_new = df.groupby(df['company']).aggregate(aggregation_functions)
Желаемый результат должен быть таким:
company exited funding_rounds funding_total founders_have_degree
0 C1 0 6 120.000 1
2 C2 1 2 250.000 2
4 C3 0 5 50.000 0