Я использую:
bins = pd.cut(data['R10rank'], list(np.arange(0.0, 1.1, 0.1)))
sum=data.groupby(bins)['Ret20d'].agg(['count', 'mean'])
для создания статистики, например:
count mean
R10rank
(0.0, 0.1] 1044 4.782833
(0.1, 0.2] 809 5.527745
(0.2, 0.3] 746 5.181306
(0.3, 0.4] 706 4.034747
(0.4, 0.5] 627 3.119654
(0.5, 0.6] 585 1.977387
(0.6, 0.7] 609 -0.602742
(0.7, 0.8] 493 -2.745312
(0.8, 0.9] 412 -2.476791
(0.9, 1.0] 374 -6.364374
Далее я хотел бы видеть корзины, которые будут агрегировать статистику за разные интервалы значений.
Как:
<0.1
<0.3
<0.5
>0.5
>0.7
etc
, таким образом, вторая строка будет содержать количество и среднее для всех значений в R10rank, которые имеют значение 0-3.Четвертая строка создаст счетчик и среднее для всех значений в R10rank со значением> 0,5
Могу ли я использовать для этого тоже pd.cut?Если нет, то что будет проще?
Спасибо.