У меня есть набор данных с категориями / кодами, например, мужчина / женщина, состояние службы, код службы и у меня есть столбец оплаченных претензий.
Я ищу способ создания таблицы / сводной таблицы с использованием Python для генерации выходных данных, в которых у меня есть только 10 самых высоких столбцов средних оплаченных претензий по коду обслуживания (т. Е. Каковы 10 лучших кодов с самыми высокими оплаченными средними претензиями) ). Я также хотел добавить с медианой, stdev, count, чтобы результат выглядел примерно как
Таблица:
gender, code, state, paid claim
F, 1234, TX, $300
F, 2345, NJ, $120
F, 3456, NJ, $30
M, 1234, MN, $250
M, 4567, CA, $50
F, 1234, MA, $70
F, 8901, CA, $150
F, 23457, NY, $160
F, 4567, SD, $125
Выходные данные, которые я пытаюсь сгенерировать (10 лучших заплаченных претензий по коду):
code, average claim, median claim, count claim
1234, 206, xxx, 3
Итак, я сделал что-то вроде:
service_code_average=df.groupby('service_code', as_index=False)['paid claim'].mean().sort_values(by='paid claim')
Мне не удалось ограничиться первой десяткой, и я изо всех сил пытался добавить СМИ и подсчитать.