Панды перечисляют группы в порядке убывания - PullRequest
3 голосов
/ 23 июня 2019

У меня есть следующий столбец:

   column
0      10
1      10
2       8
3       8
4       6
5       6

Моя цель - найти уникальные на сегодняшний день значения (в данном случае 3) и создать новый столбец, который бы создал следующие значения:

   new_column
0           3
1           3
2           2
3           2
4           1
5           1

Нумерация начинается с длины уникальных значений (3), и тот же номер повторяется, если текущая строка совпадает с предыдущей строкой на основе исходного столбца.Число уменьшается при изменении значения строки.Все уникальные значения в исходном столбце имеют одинаковое количество строк (в данном случае 2 строки на каждое уникальное значение).

Моим решением было сгруппировать исходный столбец и создать новый список, как показано ниже:

i=1
new_time=[]
for j, v in df.groupby('column'):
    new_time.append([i]*2)
    i=i+1

Затем я бы сгладил сортировку списка в порядке убывания.Любое другое простое решение?

Спасибо.

Ответы [ 5 ]

6 голосов
/ 23 июня 2019

pd.factorize

i, u = pd.factorize(df.column)
df.assign(new=len(u) - i)

   column  new
0      10    3
1      10    3
2       8    2
3       8    2
4       6    1
5       6    1

dict.setdefault

d = {}
for k in df.column:
    d.setdefault(k, len(d))

df.assign(new=len(d) - df.column.map(d))
4 голосов
/ 23 июня 2019

Используйте GroupBy.ngroup с ascending=False:

df.groupby('column', sort=False).ngroup(ascending=False)+1

0    3
1    3
2    2
3    2
4    1
5    1
dtype: int64

Для DataFrame, который выглядит следующим образом,

df = pd.DataFrame({'column': [10, 10, 8, 8, 10, 10]})

. , .в месте, где должны быть сгруппированы только последовательные значения, вам нужно изменить ваш группировщик:

(df.groupby(df['column'].ne(df['column'].shift()).cumsum(), sort=False)
   .ngroup(ascending=False)
   .add(1))

0    3
1    3
2    2
3    2
4    1
5    1
dtype: int64
2 голосов
/ 23 июня 2019

На самом деле, мы можем использовать rank с методом dense т.е.

плотный : как 'min', но ранг всегда увеличивается на 1 между группами

df['column'].rank(method='dense')

0    3.0
1    3.0
2    2.0
3    2.0
4    1.0
5    1.0

rank версия решения @ cs95 будет

df['column'].ne(df['column'].shift()).cumsum().rank(method='dense',ascending=False)
2 голосов
/ 23 июня 2019

Попробуйте с unique и map

df.column.map(dict(zip(df.column.unique(),reversed(range(df.column.nunique())))))+1
Out[350]: 
0    3
1    3
2    2
3    2
4    1
5    1
Name: column, dtype: int64
1 голос
/ 23 июня 2019

IIUC, вы хотите groupID последовательных групп с одинаковыми значениями в обратном порядке. Если это так, я думаю, что это должно работать тоже:

df.column.nunique() - df.column.ne(df.column.shift()).cumsum().sub(1)

Out[691]:
0    3
1    3
2    2
3    2
4    1
5    1
Name: column, dtype: int32
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...