Панды группового + трансформации и несколько столбцов - PullRequest
0 голосов
/ 08 ноября 2018

Чтобы получить результаты, выполненные для групповых данных с тем же уровнем детализации, что и в исходном кадре данных (тот же счетчик наблюдений), я использовал функцию преобразования.

Пример: Исходный кадр данных

name, year, grade
Jack, 2010, 6
Jack, 2011, 7
Rosie, 2010, 7
Rosie, 2011, 8

После группового преобразования

name, year, grade, average grade
Jack, 2010, 6, 6.5
Jack, 2011, 7, 6.5
Rosie, 2010, 7, 7.5
Rosie, 2011, 8, 7.5

Однако с более сложными функциями, основанными на нескольких столбцах, все становится сложнее. Что меня удивляет, так это то, что я, кажется, не могу получить доступ к нескольким столбцам в комбинации группового преобразования.

df = pd.DataFrame({'a':[1,2,3,4,5,6],
               'b':[1,2,3,4,5,6],
               'c':['q', 'q', 'q', 'q', 'w', 'w'],  
               'd':['z','z','z','o','o','o']})

def f(x):
 y=sum(x['a'])+sum(x['b'])
 return(y)

df['e'] = df.groupby(['c','d']).transform(f)

Дает мне:

KeyError: ('a', 'occurred at index a')

Хотя я знаю, что работает следующее:

df.groupby(['c','d']).apply(f)

Что вызывает такое поведение и как я могу получить что-то вроде этого:

a   b   c   d   e
1   1   q   z   12
2   2   q   z   12
3   3   q   z   12
4   4   q   o   8
5   5   w   o   22
6   6   w   o   22

Ответы [ 2 ]

0 голосов
/ 08 ноября 2018

Вы можете использовать GroupBy + transform с sum дважды:

df['e'] = df.groupby(['c', 'd'])[['a', 'b']].transform('sum').sum(1)

print(df)

   a  b  c  d   e
0  1  1  q  z  12
1  2  2  q  z  12
2  3  3  q  z  12
3  4  4  q  o   8
4  5  5  w  o  22
5  6  6  w  o  22
0 голосов
/ 08 ноября 2018

для этого конкретного случая вы можете сделать:

g = df.groupby(['c', 'd'])

df['e'] = g.a.transform('sum') + g.b.transform('sum')

df
# outputs

   a  b  c  d   e
0  1  1  q  z  12
1  2  2  q  z  12
2  3  3  q  z  12
3  4  4  q  o   8
4  5  5  w  o  22
5  6  6  w  o  22

если вы можете построить конечный результат с помощью линейной комбинации независимых преобразований в одной группе, этот метод будет работать.

в противном случае вы использовали бы groupby-apply, а затем вернулись к исходному df.

пример:

_ = df.groupby(['c','d']).apply(lambda x: sum(x.a+x.b)).rename('e').reset_index()
df.merge(_, on=['c','d'])
# same output as above.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...