Панды рассчитывают разницу на основе показателей, сгруппированных по столбцу - PullRequest
0 голосов
/ 30 мая 2018

Вот мой вопрос.Я не знаю, как это описать, поэтому я просто приведу пример.

a b k
0 0 0
0 1 1
0 2 0
0 3 0
0 4 1
0 5 0
1 0 0
1 1 1
1 2 0
1 3 1
1 4 0

Здесь «a» - это идентификатор пользователя, «b» - время, а «k» - двоичный индикаторфлаг.«б» является последовательным наверняка.Я хочу получить следующее:

a b k diff_b
0 0 0 nan
0 1 1 nan
0 2 0 1
0 3 0 2
0 4 1 3
0 5 0 1
1 0 0 nan
1 1 1 nan
1 2 0 1
1 3 1 2
1 4 0 1

Итак, diff_b - это переменная разницы во времени.Показывает продолжительность между текущим моментом времени и последним моментом времени с действием.Если до этого никогда не было действия, возвращается nan.Этот diff_b сгруппирован по.Для каждого пользователя этот diff_b рассчитывается независимо.

Может кто-нибудь пересмотреть мой заголовок?Я не знаю, как описать это по-английски.Так сложно ...

Спасибо!

Ответы [ 2 ]

0 голосов
/ 30 мая 2018

создает разделы данных строк после k == 1 до следующего k == 1 с использованием cumsum и shift для каждой группы a

parts = df.groupby('a').k.apply(lambda x: x.shift().cumsum())

с помощью df.a &parts и вычислите разницу между b & b.min() в каждой группе

vals = df.groupby([df.a, parts]).b.apply(lambda x: x-x.min()+1)

установите значения равными нулю, когда часть == 0, и назначьте обратно кадру данных

df['diff_b'] = np.select([parts!=0], [vals], np.nan)

выходы:

    a  b  k  diff_b
0   0  0  0     NaN
1   0  1  1     NaN
2   0  2  0     1.0
3   0  3  0     2.0
4   0  4  1     3.0
5   0  5  0     1.0
6   1  0  0     NaN
7   1  1  1     NaN
8   1  2  0     1.0
9   1  3  1     2.0
10  1  4  0     1.0
0 голосов
/ 30 мая 2018

IIUC

df['New']=df.b.loc[df.k==1]# get all value b when k equal to 1
df.New=df.groupby('a').New.apply(lambda x : x.ffill().shift()) # fillna by froward method , then we need shift.
df.b-df['New']# yield 
Out[260]: 
0     NaN
1     NaN
2     1.0
3     2.0
4     3.0
5     1.0
6     NaN
7     NaN
8     1.0
9     2.0
10    1.0
dtype: float64
...