Группировка по / Pivot - PullRequest
3 голосов
/ 11 апреля 2019
dummy_df = pd.DataFrame({
    'accnt' : [101, 102, 103, 104, 101, 102, 103, 104, 101, 102, 103, 104, 101, 102, 103, 104, 101, 102, 103, 104],
    'value' : [10, 20, 30, 40, 5, 2, 6, 48, 22, 23, 24, 25, 18, 25, 26, 14, 78, 72, 54, 6],
    'category' : [1,1,1,1,2,2,2,2,1,1,2,2,3,3,3,3,1,3,2,3]
})

dummy_df

accnt   value   category
 101     10      1
 102     20      1
 103     30      1
 104     40      1
 101     5       2
 102     2       2
 103     6       2
 104     48      2
 101     22      1
 102     23      1
 103     24      2
 104     25      2
 101     18      3
 102     25      3
 103     26      3
 104     14      3
 101     78      1
 102     72      3
 103     54      2
 104     6       3

Я хочу получить кадр данных, как показано ниже:

accnt   sum_val_c1  count_c1    sum_val_ct2 count_c2    sum_val_c3  count_c3
  101       110        3           5           1              18     1
  102       43         2           2           1              97     2
  103       30         1           84          3              26     1
  104       40         1           73          2              20     2

, который суммирует вхождение категории в count_c# и суммируетзначение этой категории в sum_val_c# и группировка по accnt.Я пытался использовать pivot() и groupby(), но я знаю, что что-то упустил.

Ответы [ 2 ]

5 голосов
/ 11 апреля 2019

Используйте groupby, agg и unstack:

u = df.groupby(['accnt', 'category'])['value'].agg(['sum', 'count']).unstack(1)
u.columns = u.columns.map('{0[0]}_c{0[1]}'.format)
u

       sum_c1  sum_c2  sum_c3  count_c1  count_c2  count_c3
accnt                                                      
101       110       5      18         3         1         1
102        43       2      97         2         1         2
103        30      84      26         1         3         1
104        40      73      20         1         2         2

Аналогично с pivot_table,

u = df.pivot_table(index=['accnt'], 
                   columns='category', 
                   values='value', 
                   aggfunc=['sum', 'count'])
u.columns = u.columns.map('{0[0]}_c{0[1]}'.format)
u

       sum_c1  sum_c2  sum_c3  count_c1  count_c2  count_c3
accnt                                                      
101       110       5      18         3         1         1
102        43       2      97         2         1         2
103        30      84      26         1         3         1
104        40      73      20         1         2         2
1 голос
/ 11 апреля 2019

У Панд есть метод для этого.

pivot2 = dummy_df.pivot_table(values='value', index='accnt', columns='category', aggfunc=['count', 'sum'])

Возвращает фрейм данных, подобный этому:

         count        sum
category     1  2  3    1   2   3
accnt
101          3  1  1  110   5  18
102          2  1  2   43   2  97
103          1  3  1   30  84  26
104          1  2  2   40  73  20
...