Как использовать групповые и суммы, чтобы удалить дубликаты - PullRequest
0 голосов
/ 21 января 2020

Мой фрейм данных имеет четыре столбца: дата, источник, кампания и расходы. Теперь я продублировал значение даты, источника и кампании, и я хотел бы суммировать расходы, если дата, источник и кампания (вместе) совпадают. Таким образом, каждый день будет только один источник, кампания и расходы

enter image description here

и мой код:

marketing_spend_dict_df['spend_update'] = 
marketing_spend_dict_df.groupby(['date','source','campaign'])['spend'].sum()

Я получаю ошибка «несовместимый индекс вставленного столбца с индексом фрейма». Как я могу с этим справиться? Я пытался выполнить поиск в Google, но не нашел оптимального решения. Спасибо!

1 Ответ

0 голосов
/ 21 января 2020

Возможно, проблема связана с мультииндексом. Оформить заказ по этой ссылке Присоединить вычисленный столбец к существующему фрейму данных . Я считаю, что некоторые пользователи SO могут пометить его как дубликат с большим количеством повторений.

new_column = marketing_spend_dict_df.groupby(['date','source','campaign'], as_index=False)['spend'].sum()
marketing_spend_dict_df["spend_update"] = new_column.reset_index(level=0, drop=True)
...