Я хотел бы рассчитать среднее значение для нескольких столбцов, используя groupby
.Ниже приведен пример с игрушкой
df = pd.DataFrame({'company': ['dell', 'microsoft', 'toshiba', 'apple'],
'measure': ['sales', 'speed', 'wait time', 'service'], 'category': ['laptop',
'tablet', 'smartphone', 'desktop'], '10/6/2015': [234, 333, 456, 290],
'10/13/2015': [134, 154, 123, 177], '10/20/2015': [57, 57, 63, 71]})
Я хотел бы рассчитать среднее значение для каждой строки по столбцам даты в df
.Я подумал, что лучший способ использовать groupby
- это изменить имена столбцов, чтобы они не были уникальными для каждого месяца, например:
def maybe_rename(col_name):
if re.match('\\d+/\\d+/\\d+', col_name):
return re.split('/', col_name)[0] + re.split('/', col_name)[2]
else:
return col_name
df = df.rename(columns = maybe_rename)
df
company measure category 102015 102015 102015
0 dell sales laptop 234 134 57
1 microsoft speed tablet 333 154 57
2 toshiba wait time smartphone 456 123 63
3 apple service desktop 290 177 71
Затем я попытался вычислить mean
вот так:
df = df.groupby(df.columns, axis = 1).mean()
Что вернуло следующую ошибку: DataError: No numeric types to aggregate
Как мне обойти это?Мой желаемый результат ниже:
df
company measure category 102015
0 dell sales laptop 141.66
1 microsoft speed tablet 181.33
2 toshiba wait time smartphone 214.0
3 apple service desktop 79.33