группа данных по одному столбцу и в среднем по одному столбцу, при этом наиболее часто встречающиеся встречаются в другом - PullRequest
2 голосов
/ 29 марта 2019

У меня есть фрейм данных pandas, и я хочу сгруппировать один столбец, усредняя один столбец и находя наиболее встречающееся значение в другом столбце.

Мне удалось это сделать, но я думаю, что есть краткий способ сделать это.это вместо 4 строк кода

import pandas as pd
df = pd.DataFrame({'Country' : ['USA', 'USA', 'Russia','USA', 'Russia', 'Russia'], 'City' : ['New-York', 'New-York', 'Sankt-Petersburg', 'Chicago', 'Moscow', 'Moscow'], 'Flights' : [22, 45, 32, 16, 31, 25]})
w=df.groupby('Country').mean().round(decimals=2)
x=(df.groupby('Country')['City'].agg(pd.Series.mode))
y=x.to_frame()
z = pd.concat([w, y], axis=1 ,join='outer')
Country   Flights   City

Russia    29.33         Moscow

USA       27.67         New-York

1 Ответ

2 голосов
/ 29 марта 2019

Используйте GroupBy.agg с лямбда-функциями, также для режима возможно добавить Series.iat для выбора первого значения, поскольку mode должно возвращать больше значения:

z = df.groupby('Country').agg({'Flights': lambda x: round(x.mean(), 2), 
                               'City': lambda x: x.mode().iat[0]})
print (z)
         Flights      City
Country                   
Russia     29.33    Moscow
USA        27.67  New-York

z = df.groupby('Country', as_index=False).agg({'Flights': lambda x: round(x.mean(),2), 
                                               'City': lambda x: x.mode().iat[0]})
print (z)

  Country  Flights      City
0  Russia    29.33    Moscow
1     USA    27.67  New-York
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...