Question

У меня есть следующий столбец:

Моя цель - найти уникальные на сегодняшний день значения (в данном случае 3) и создать новый столбец, который бы создал следующие значения:

   new_column
0           3
1           3
2           2
3           2
4           1
5           1

Нумерация начинается с длины уникальных значений (3), и тот же номер повторяется, если текущая строка совпадает с предыдущей строкой на основе исходного столбца.Число уменьшается при изменении значения строки.Все уникальные значения в исходном столбце имеют одинаковое количество строк (в данном случае 2 строки на каждое уникальное значение).

Моим решением было сгруппировать исходный столбец и создать новый список, как показано ниже:

i=1
new_time=[]
for j, v in df.groupby('column'):
    new_time.append([i]*2)
    i=i+1

Затем я бы сгладил сортировку списка в порядке убывания.Любое другое простое решение?

Спасибо.

piRSquared · Answer 1 · 23 июня 2019

`pd.factorize`

i, u = pd.factorize(df.column)
df.assign(new=len(u) - i)

   column  new
0      10    3
1      10    3
2       8    2
3       8    2
4       6    1
5       6    1

`dict.setdefault`

d = {}
for k in df.column:
    d.setdefault(k, len(d))

df.assign(new=len(d) - df.column.map(d))

cs95 · Answer 2 · 23 июня 2019

Используйте GroupBy.ngroup с ascending=False:

df.groupby('column', sort=False).ngroup(ascending=False)+1

0    3
1    3
2    2
3    2
4    1
5    1
dtype: int64

Для DataFrame, который выглядит следующим образом,

df = pd.DataFrame({'column': [10, 10, 8, 8, 10, 10]})

. , .в месте, где должны быть сгруппированы только последовательные значения, вам нужно изменить ваш группировщик:

(df.groupby(df['column'].ne(df['column'].shift()).cumsum(), sort=False)
   .ngroup(ascending=False)
   .add(1))

0    3
1    3
2    2
3    2
4    1
5    1
dtype: int64

Bharath M · Answer 3 · 23 июня 2019

На самом деле, мы можем использовать rank с методом dense т.е.

плотный : как 'min', но ранг всегда увеличивается на 1 между группами

df['column'].rank(method='dense')

0    3.0
1    3.0
2    2.0
3    2.0
4    1.0
5    1.0

rank версия решения @ cs95 будет

df['column'].ne(df['column'].shift()).cumsum().rank(method='dense',ascending=False)

WeNYoBen · Answer 4 · 23 июня 2019

Попробуйте с unique и map

df.column.map(dict(zip(df.column.unique(),reversed(range(df.column.nunique())))))+1
Out[350]: 
0    3
1    3
2    2
3    2
4    1
5    1
Name: column, dtype: int64

Andy L. · Answer 5 · 23 июня 2019

IIUC, вы хотите groupID последовательных групп с одинаковыми значениями в обратном порядке. Если это так, я думаю, что это должно работать тоже:

df.column.nunique() - df.column.ne(df.column.shift()).cumsum().sub(1)

Out[691]:
0    3
1    3
2    2
3    2
4    1
5    1
Name: column, dtype: int32

Панды перечисляют группы в порядке убывания

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

`pd.factorize`

`dict.setdefault`

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды перечисляют группы в порядке убывания

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

pd.factorize

dict.setdefault

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

`pd.factorize`

`dict.setdefault`