Вычислить среднее значение строк данных в фрейме данных с заголовками даты, продиктованными столбцом datetime - PullRequest
0 голосов
/ 07 мая 2020

У меня есть датафрейм с идентификаторами клиентов и их расходами за 2014-2018 гг. Я хочу иметь среднее значение расходов по идентификатору, но при вычислении среднего значения можно учитывать только годы до определенной даты (поэтому столбец «Дата» указывает, какие столбцы можно учитывать в качестве среднего).

Пример: для индекса 0 (ID: 12) в дате указано «2016-03-08», тогда среднее значение должно быть взято из столбцов «y_2014» и «y_2015», поэтому для этого индекса , среднее значение 111,0. Если дата слишком ранняя (например, где-то в 2014 году или раньше в этом случае), тогда должно быть возвращено NaN (см. Индексы 6 и 9).

Исходный фрейм данных:

   y_2014  y_2015  y_2016  y_2017  y_2018        Date  ID  
0   100.0   122.0     324     632     NaN  2016-03-08  12   
1   120.0   159.0      54     452   541.0  2015-04-09  96   
2     NaN   164.0     687     165   245.0  2016-02-15  20   
3   180.0   421.0     512     184   953.0  2018-05-01  73  
4   110.0   654.0     913     173   103.0  2017-08-04  84   
5   130.0     NaN     754     124   207.0  2016-07-03  26   
6   170.0   256.0     843      97   806.0  2013-02-04  87    
7   140.0   754.0      95     101   541.0  2016-06-08  64    
8    80.0   985.0     184      84    90.0  2019-03-05  11  
9    96.0    65.0     127     130   421.0  2014-05-14  34     

Желаемый результат:

   y_2014  y_2015  y_2016  y_2017  y_2018        Date  ID    mean
0   100.0   122.0     324     632     NaN  2016-03-08  12   111.0
1   120.0   159.0      54     452   541.0  2015-04-09  96   120.0
2     NaN   164.0     687     165   245.0  2016-02-15  20   164.0
3   180.0   421.0     512     184   953.0  2018-05-01  73  324.25
4   110.0   654.0     913     173   103.0  2017-08-04  84   559.0
5   130.0     NaN     754     124   207.0  2016-07-03  26   130.0
6   170.0   256.0     843      97   806.0  2013-02-04  87     NaN
7   140.0   754.0      95     101   541.0  2016-06-08  64     447
8    80.0   985.0     184      84    90.0  2019-03-05  11   284.6
9    96.0    65.0     127     130   421.0  2014-05-14  34     NaN

Пробный код: -> Я все еще работаю над этим, так как я действительно не знаю, как для начала, я пока только загрузил фрейм данных, возможно, что-то нужно сделать с пакетом 'datetime', чтобы получить желаемый фрейм данных?

import pandas as pd

import numpy as np

import datetime

df = pd.DataFrame({"ID":   [12,96,20,73,84,26,87,64,11,34],
 
                 "y_2014": [100,120,np.nan,180,110,130,170,140,80,96],
   
                 "y_2015": [122,159,164,421,654,np.nan,256,754,985,65],
     
                 "y_2016": [324,54,687,512,913,754,843,95,184,127],
   
                 "y_2017": [632,452,165,184,173,124,97,101,84,130],
   
                 "y_2018": [np.nan,541,245,953,103,207,806,541,90,421],
 
                 "Date": ['2016-03-08', '2015-04-09', '2016-02-15', '2018-05-01', '2017-08-04',
                          
                          '2016-07-03', '2013-02-04', '2016-06-08', '2019-03-05', '2014-05-14']})

print(df)

Ответы [ 2 ]

1 голос
/ 07 мая 2020

Из-за вашего соглашения об именах необходимо извлекать годы из имен столбцов для сравнения. Затем вы можете замаскировать данные и взять среднее:

# the years from columns
data = df.filter(like='y_')
data_years = data.columns.str.extract('(\d+)')[0].astype(int)

# the years from Date
years = pd.to_datetime(df.Date).dt.year.values

df['mean'] = data.where(data_years<years[:,None]).mean(1)

Вывод:

   y_2014  y_2015  y_2016  y_2017  y_2018       Date  ID    mean
0   100.0   122.0     324     632     NaN 2016-03-08  12  111.00
1   120.0   159.0      54     452   541.0 2015-04-09  96  120.00
2     NaN   164.0     687     165   245.0 2016-02-15  20  164.00
3   180.0   421.0     512     184   953.0 2018-05-01  73  324.25
4   110.0   654.0     913     173   103.0 2017-08-04  84  559.00
5   130.0     NaN     754     124   207.0 2016-07-03  26  130.00
6   170.0   256.0     843      97   806.0 2013-02-04  87     NaN
7   140.0   754.0      95     101   541.0 2016-06-08  64  447.00
8    80.0   985.0     184      84    90.0 2019-03-05  11  284.60
9    96.0    65.0     127     130   421.0 2014-05-14  34     NaN
0 голосов
/ 11 мая 2020

еще один ответ:

import pandas as pd

import numpy as np



df = pd.DataFrame({"ID":   [12,96,20,73,84,26,87,64,11,34],
                 
               "y_2014": [100,120,np.nan,180,110,130,170,140,80,96],
   
               "y_2015": [122,159,164,421,654,np.nan,256,754,985,65],
                 
               "y_2016": [324,54,687,512,913,754,843,95,184,127],
  
               "y_2017": [632,452,165,184,173,124,97,101,84,130],
                 
               "y_2018": [np.nan,541,245,953,103,207,806,541,90,421],
  
                 "Date": ['2016-03-08', '2015-04-09', '2016-02-15', '2018-05-01', '2017-08-04',
               
                          '2016-07-03', '2013-02-04', '2016-06-08', '2019-03-05', '2014-05-14']})

#Subset from original df to calculate mean
subset = df.loc[:,['y_2014', 'y_2015', 'y_2016', 'y_2017', 'y_2018']]


#an expense value is only available for the calculation of the mean when that year has passed, therefore 2015-01-01 is chosen for the 'y_2014' column in the subset etc. to check with the 'Date'-column
subset.columns = ['2015-01-01', '2016-01-01', '2017-01-01', '2018-01-01', '2019-01-01']


s = subset.columns[0:].values < df.Date.values[:,None]

t = s.astype(float)
t[t == 0] = np.nan


df['mean'] = (subset.iloc[:,0:]*t).mean(1)


print(df)

#Additionally: (gives the sum of expenses before a certain date in the 'Date'-column
df['sum'] = (subset.iloc[:,0:]*t).sum(1)


print(df)


...