Отметьте каждую N-ую строку в группе с помощью панд - PullRequest
0 голосов
/ 17 декабря 2018

У меня есть датафрейм с информацией о клиенте и его информацией о покупке.Я пытаюсь добавить новые столбцы, в которых указывается каждая третья покупка, совершенная одним и тем же клиентом.

Ниже приводится датафрейм

customer_name,bill_no,date
Mark,101,2018-10-01
Scott,102,2018-10-01
Pete,103,2018-10-02
Mark,104,2018-10-02
Mark,105,2018-10-04
Scott,106,2018-10-21
Julie,107,2018-10-03
Kevin,108,2018-10-07
Steve,109,2018-10-02
Mark,110,2018-10-06
Mark,111,2018-10-02
Mark,112,2018-10-05
Mark,113,2018-10-05

, который я пишу для фильтрации каждой третьей покупки, совершеннойтот же клиент.Поэтому в этом случае я хотел бы добавить флаг для нижеприведенного bill_no

Mark,105,2018-10-04
Mark,112,2018-10-05

В основном каждый счет, кратный 3, сгенерированный для одного и того же клиента.

Ответы [ 2 ]

0 голосов
/ 17 декабря 2018

Использование groupby.cumcount:

n = 3
df['flag'] = df.groupby('customer_name').cumcount() + 1
df['flag'] = ((df['flag'] % n) == 0).astype(int)

print(df)
   customer_name  bill_no        date  flag
0           Mark      101  2018-10-01     0
1          Scott      102  2018-10-01     0
2           Pete      103  2018-10-02     0
3           Mark      104  2018-10-02     0
4           Mark      105  2018-10-04     1
5          Scott      106  2018-10-21     0
6          Julie      107  2018-10-03     0
7          Kevin      108  2018-10-07     0
8          Steve      109  2018-10-02     0
9           Mark      110  2018-10-06     0
10          Mark      111  2018-10-02     0
11          Mark      112  2018-10-05     1
12          Mark      113  2018-10-05     0
0 голосов
/ 17 декабря 2018

Если на самом деле важно получить индексы, вы должны использовать groupby + apply с нарезкой по индексу:

n = 3
idx = df.groupby('customer_name', group_keys=False).apply(
    lambda x: x.index[n-1::n].to_series())
# So you can query these rows easily.
df.loc[idx]

   customer_name  bill_no        date
4           Mark      105  2018-10-04
11          Mark      112  2018-10-05

Теперь отметьте их, используя индексы:

df['flag'] = 0
df.loc[idx, 'flag'] = 1

df
   customer_name  bill_no        date  flag
0           Mark      101  2018-10-01     0
1          Scott      102  2018-10-01     0
2           Pete      103  2018-10-02     0
3           Mark      104  2018-10-02     0
4           Mark      105  2018-10-04     1
5          Scott      106  2018-10-21     0
6          Julie      107  2018-10-03     0
7          Kevin      108  2018-10-07     0
8          Steve      109  2018-10-02     0
9           Mark      110  2018-10-06     0
10          Mark      111  2018-10-02     0
11          Mark      112  2018-10-05     1
12          Mark      113  2018-10-05     0

Если важна производительность, воспользуйтесь решением Sandeep.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...