написать функцию по группам по году и вычислить среднее значение и посчитать размер в pandas - PullRequest
1 голос
/ 07 января 2020

У меня есть кадр данных, как показано ниже

Contract_ID    Place         Contract_Date      Price
1              Bangalore     2018-10-25         100
2              Bangalore     2018-08-25         200
3              Bangalore     2019-10-25         300
4              Bangalore     2019-11-25         200
5              Bangalore     2019-10-25         400
6              Chennai       2018-10-25         100
7              Chennai       2018-10-25         200
8              Chennai       2018-10-25         100
9              Chennai       2018-10-25         300
10             Chennai       2019-10-25         400
11             Chennai       2019-10-25         600

Из приведенного выше я хотел бы сгенерировать приведенную ниже таблицу, используя pandas.

Ожидаемый результат:

Place       Year     Number_of_Contracts    Average_Price   
Bangalore   2018     2                      150
Bangalore   2019     3                      300
Chennai     2018     4                      175
Chennai     2019     2                      500

Попробовал ниже код и работает нормально. Но я хотел бы преобразовать приведенный ниже код как функцию. Любая помощь будет принята с благодарностью.

df['Contract_Date'] = pd.to_datetime(df['Contract_Date'])
df1 = (df.groupby(['Place', df['Contract_Date'].dt.year.rename('Year')])
         .agg(Number_of_Contracts=('Contract_ID','size'),
              Average_Price=('Price','mean'))
         .reset_index())

Ответы [ 2 ]

1 голос
/ 07 января 2020

Использование:

def func(df):
    df['Contract_Date'] = pd.to_datetime(df['Contract_Date'])
    return  (df.groupby(['Place', df['Contract_Date'].dt.year.rename('Year')])
               .agg(Number_of_Contracts=('Contract_ID','size'),
                    Average_Price=('Price','mean'))
               .reset_index())

Затем вызвать функцию:

df1 = func(df)

Или использовать DataFrame.pipe:

df1 = df.pipe(func)

РЕДАКТИРОВАТЬ:

def func(df, dates, place, id1, price):
    df[dates] = pd.to_datetime(df[dates])
    return  (df.groupby([place, df[dates].dt.year.rename('Year')])
         .agg(Number_of_Contracts=(id1,'size'),
              Average_Price=(price,'mean'))
         .reset_index())
df1 = func(df, 'Contract_Date', 'Place', 'Contract_ID', 'Price')

print (df1)
       Place  Year  Number_of_Contracts  Average_Price
0  Bangalore  2018                    2            150
1  Bangalore  2019                    3            300
2    Chennai  2018                    4            175
3    Chennai  2019                    2            500
0 голосов
/ 07 января 2020

Этот фрагмент кода также работает:

pivot=df.pivot_table(index=['Place',df['Contract_Date'].dt.year.rename('Year')],
               values='Price',aggfunc=['count','sum']).reset_index()
pivot.columns=pivot.columns.droplevel(1)
    Place   Year    count   sum
0   Bangalore   2018    2   200
1   Bangalore   2019    3   300
2   Chennai     2018    4   400
3   Chennai     2019    2   200

Примечание: Моя ЦЕНА не совпадает с вашей

...