Question

Извините, если это повторяющийся пост - я не могу найти связанный пост, хотя

from random import seed
seed(100)
P = pd.DataFrame(np.random.randint(0, 100, size=(1000, 2)), columns=list('AB'))

Я хотел бы сгруппировать P по квартилям / квантилям / децилям / и т. Д. СтолбцаA, а затем рассчитать совокупную статистику (например, mean) по группам.Я могу определить децили столбца как

P['A'].quantile(np.arange(10) / 10)

. Я не уверен, как сгруппировать децили в A.Заранее спасибо!

Valdi_Bo · Answer 1 · 21 сентября 2019

Если вы хотите сгруппировать P, например, по квартилям, запустите:

gr = P.groupby(pd.qcut(P.A, 4, labels=False))

Затем вы можете выполнить любые операции с этими группами.

Для презентации ниже у вас есть толькораспечатка P ограничена 20 строками:

for key, grp in gr:
    print(f'\nGroup: {key}\n{grp}')

, что дает:

Как видите, каждая группа (квартиль) имеет 5 членов, поэтому группировка правильная.

В качестве дополнения

Если вас интересуют границы каждого квартиля, запустите:

pd.qcut(P.A, 4, labels=False, retbins=True)[1]

Затем cut вернет 2 результата(кортеж).Первый элемент (номер 0) - это результат, возвращенный ранее, но на этот раз нас интересует элемент second (номер 1) - границы корзины.

Для ваших данных они:

array([ 4.  , 12.25, 40.5 , 59.5 , 98.  ])

Так, например, первый квартиль находится между 4 и 12,35 .

Valentino · Answer 2 · 21 сентября 2019

Вы можете использовать серию quantile, чтобы создать еще один столбец, пометить каждую строку меткой квантиля, а затем сгруппировать по этому столбцу. numpy searchsorted очень полезно для этого:

import numpy as np
import pandas as pd
from random import seed

seed(100)
P = pd.DataFrame(np.random.randint(0, 100, size=(1000, 2)), columns=list('AB'))
q = P['A'].quantile(np.arange(10) / 10)
P['G'] = P['A'].apply(lambda x : q.index[np.searchsorted(q, x, side='right')-1])

Поскольку в серии квантилей хранятся нижние значения интервалов квантиля, обязательно передайте параметр side='right' в np.searchsortedчтобы не получить 0 (минимум должен быть 1, или у вас на один индекс больше, чем вам нужно).

Теперь вы можете разработать свою статистику, выполнив, например:

P.groupby('G').agg(['sum', 'mean']) #add to the list all the statistics method you wish

Группировать данные в пандах по квантилям одного столбца

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

В качестве дополнения

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Группировать данные в пандах по квантилям одного столбца

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

В качестве дополнения

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов