Сортировка фрейма данных Pandas с группировкой и условиями - PullRequest
0 голосов
/ 03 февраля 2019

Я пытаюсь отсортировать фрейм данных на основе условий группы.

Я получаю синтаксическую ошибку при сортировке групп.И я теряю начальный порядок фрейма данных, прежде чем предпринять попытку выше.

Это порядок сортировки, которого я пытаюсь достичь:

1) Сортировка по столбцам First и Test.

2) Test == 1 группы, sortВторично, затем по столбцу Финал.

--- Тест == 0 групп, сортировка только по столбцу Финал.

import pandas as pd

df=pd.DataFrame({"First":[100,100,100,100,100,100,200,200,200,200,200],"Test":[1,1,1,0,0,0,0,1,1,1,0],"Secondary":[.1,.1,.1,.2,.2,.3,.3,.3,.3,.4,.4],"Final":[1.1,2.2,3.3,4.4,5.5,6.6,7.7,8.8,9.9,10.10,11.11]})

def sorter(x):
    if x["Test"]==1:
        x.sort_values(['Secondary','Final'], inplace=True)
    else:
        x=x.sort_values('Final', inplace=True)


df=df.sort_values(["First","Test"],ascending=[False, False]).reset_index(drop=True)


df.groupby(['First','Test']).apply(lambda x: sorter(x))

df

Expected result:

First Test Secondary Final
200     1   0.4     10.1
200     1   0.3*    9.9*
200     1   0.3*    8.8*

200     0   0.4     11.11*
200     0   0.3     7.7*

100     1   0.5     2.2
100     1   0.1*    3.3*
100     1   0.1*    1.1*

100     0   0.3     6.6*
100     0   0.2     5.5*
100     0   0.2     4.4*

Ответы [ 2 ]

0 голосов
/ 04 февраля 2019

Хитрость заключалась в том, чтобы сортировать подмножества отдельно и заменять значения в оригинальном df.Это появилось в других решениях проблем сортировки панд.

import pandas as pd


df=pd.DataFrame({"First":[100,100,100,100,100,100,200,200,200,200,200],"Test":[1,1,1,0,0,0,0,1,1,1,0],"Secondary":[.1,.5,.1,.9,.4,.1,.3,.3,.3,.4,.4],"Final":[1.1,2.2,3.3,4.4,5.5,6.6,7.7,8.8,9.9,10.10,11.11]})

df.sort_values(['First','Test','Secondary','Final'],ascending=False, inplace=True)

index_subset=df[df["Test"]==0].index
sorted_subset=df[df["Test"]==0].sort_values(['First','Final'],ascending=False)

df.loc[index_subset,:]=sorted_subset.values

print(df)
0 голосов
/ 03 февраля 2019

Вы можете попробовать сортировку в порядке убывания без группировки, по заданной вами последовательности сортировка изменится. Будет ли она работать для вас

df=pd.DataFrame({"First":[100,100,100,100,100,100,200,200,200,200,200],"Test":[1,1,1,0,0,0,0,1,1,1,0],"Secondary":[.1,.5,.1,.9,.4,.1,.3,.3,.3,.4,.4],"Final":[1.1,2.2,3.3,4.4,5.5,6.6,7.7,8.8,9.9,10.10,11.11]})

df = df.groupby(['First','Test']).apply(lambda x: x.sort_values(['First','Test','Secondary','Final'],ascending=False) if x.iloc[0]['Test']==1 else x.sort_values(['First','Test','Final'],ascending=False)).reset_index(drop=True)
df.sort_values(['First','Test'],ascending=[True,False])

Out:

    Final   First   Secondary   Test
3   2.20    100 0.5 1
4   3.30    100 0.1 1
5   1.10    100 0.1 1
0   6.60    100 0.1 0
1   5.50    100 0.4 0
2   4.40    100 0.9 0
8   10.10   200 0.4 1
9   9.90    200 0.3 1
10  8.80    200 0.3 1
6   11.11   200 0.4 0
7   7.70    200 0.3 0
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...