Последнее появление объекта Groupby при определенных условиях - PullRequest
0 голосов
/ 12 февраля 2019

Допустим, у меня есть DataFrame, который выглядит следующим образом:

    Categories  Values
0   Category 0       1
1   Category 0       0
2   Category 0      -1
3   Category 0       0
4   Category 1       1
5   Category 1       0
6   Category 1      -1
7   Category 1       0
8   Category 2       1
9   Category 2       0
10  Category 2      -1
11  Category 2       0
12  Category 3      -1
13  Category 3       0
14  Category 3       0
15  Category 3       1
16  Category 4      -1
17  Category 4       0
18  Category 4       0
19  Category 4       1
20  Category 5      -1
21  Category 5       0
22  Category 5       0
23  Category 5       1

Я хочу эффективный по времени способ получить две вещи из последних ненулевых записей значений в каждой группе:

(1): индексы,

(2): записи


Желаемый результат (1): [2,6,10,15,19, 23] в форме панд Серии

Желаемый результат (2): [-1, -1, -1,1,1,1] в форме панд Серии

Заранее спасибо, ребята


РЕДАКТИРОВАТЬ: добавлен код Python для генерации вышеупомянутого DataFrame:

import pandas as pd

n = 4
m = 3
df = pd.DataFrame({'Categories': [f'Category {i//n}' for i in range(2*m*n)],
                   'Values' : [1,0,-1,0]*m+ [-1,0,0,1]*m})

Ответы [ 3 ]

0 голосов
/ 12 февраля 2019

Используйте boolean indexing только для фильтра, не равного 0 значениям с DataFrame.drop_duplicates по столбцу Categories с сохранением только последнего дублирования:

df1 = df[df['Values'].ne(0)].drop_duplicates('Categories', 'last')
print (df1)
    Categories  Values
2   Category 0      -1
6   Category 1      -1
10  Category 2      -1
15  Category 3       1
19  Category 4       1
23  Category 5       1

print (df1.index.tolist())
[2, 6, 10, 15, 19, 23]

print (df1['Values'].tolist())
[-1, -1, -1, 1, 1, 1]
0 голосов
/ 12 февраля 2019

Я бы сначала отфильтровал ненулевые строки, groupby:

In [11]: df1 = df[df.Values != 0]

In [12]: df1[df1.groupby("Categories")["Values"].transform(lambda x: x == x.iloc[-1])]
Out[12]:
    Categories  Values
2   Category 0      -1
6   Category 1      -1
10  Category 2      -1
15  Category 3       1
19  Category 4       1
23  Category 5       1

In [13]: df1[df1.groupby("Categories")["Values"].transform(lambda x: x == x.iloc[-1])].index
Out[13]: Int64Index([2, 6, 10, 15, 19, 23], dtype='int64')
0 голосов
/ 12 февраля 2019

один способ решить эту проблему,

df['value']=df.groupby('Categories')['Values'].transform(lambda x: x.loc[x[::-1].ne(0).argmax()])
df['index']=df.groupby('Categories')['Values'].transform(lambda x: x[::-1].ne(0).argmax())

Примечание: Возможно, это не эффективный способ решить эту проблему, но я попробовал это простое решение для вас.

O / P:

    Categories  Values  value  index
0   Category 0       1     -1      2
1   Category 0       0     -1      2
2   Category 0      -1     -1      2
3   Category 0       0     -1      2
4   Category 1       1     -1      6
5   Category 1       0     -1      6
6   Category 1      -1     -1      6
7   Category 1       0     -1      6
8   Category 2       1     -1     10
9   Category 2       0     -1     10
10  Category 2      -1     -1     10
11  Category 2       0     -1     10
12  Category 3      -1      1     15
13  Category 3       0      1     15
14  Category 3       0      1     15
15  Category 3       1      1     15
16  Category 4      -1      1     19
17  Category 4       0      1     19
18  Category 4       0      1     19
19  Category 4       1      1     19
20  Category 5      -1      1     23
21  Category 5       0      1     23
22  Category 5       0      1     23
23  Category 5       1      1     23
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...