Мне было интересно, если кто-нибудь может помочь объяснить поведение ниже, используя agg ()
import numpy as np
import pandas as pd
import string
Инициализировать фрейм данных
df = pd.DataFrame(data=[list(string.ascii_lowercase)[0:5]*2,list(range(1,11)),list(range(11,21))]).T
df.columns = columns=['g','c1','c2']
df.sort_values(['g']).head(5)
g c1 c2
0 a 1 11
5 a 6 16
1 b 2 12
6 b 7 17
2 c 3 13
В качестве примера я суммирую и усредняю по c1 и c2, делая группу по g
Сценарий ошибки данных отсутствует:
f = { 'c1' : lambda g: df.loc[g.index].c2.sum() + g.sum(), 'c2' : lambda g: (df.loc[g.index].c1.sum() + g.sum())/(g.count()+df.loc[g.index].c1.count())}
df = df.groupby('g',as_index=False).agg(f)
Ошибка с типом данных:
rnm_cols = dict(sum='Sum', mean='Mean') #, std='Std')
df = df.set_index(['g']).stack().groupby('g').agg(rnm_cols.keys()).rename(columns=rnm_cols)
Я получаю -> DataError: Нет числовых типов для агрегирования
Я знаю, что если я инициализирую свой фрейм данных, используя приведенное ниже, я могу избежать этой проблемы:
df[['c1','c2']] = df[['c1','c2']].apply(lambda x: pd.to_numeric(x, errors='coerce'))
Однако я пытаюсь понять, почему агрегирование со средним
Функция выдаёт такие ошибки?