Question

from itertools import product
import pandas as pd

df = pd.DataFrame.from_records(product(range(10), range(10)))
df = df.sample(90)
df.columns = "c1 c2".split()
df = df.sort_values(df.columns.tolist()).reset_index(drop=True)
#     c1  c2
# 0    0   0
# 1    0   1
# 2    0   2
# 3    0   3
# 4    0   4
# ..  ..  ..
# 85   9   4
# 86   9   5
# 87   9   7
# 88   9   8
# 89   9   9
# 
# [90 rows x 2 columns]

Как быстро найти, идентифицировать и удалить последний дубликат всех симметричных пар в этом кадре данных?

Под симметричной парой я подразумеваю, что (0, 1) равно (1, 0). Последний должен быть удален.

Он должен быть быстрым, поэтому ценные решения приветствуются. Не конвертируйте в объекты Python, пожалуйста:)

Quang Hoang · Answer 1 · 28 октября 2019

Вы можете отсортировать значения, тогда groupby:

a= np.sort(df.to_numpy(), axis=1)
df.groupby([a[:,0], a[:,1]], as_index=False, sort=False).first()

Опция 2 : если у вас много пар c1, c2, groupby может быть медленным. В этом случае мы можем назначить новые значения и отфильтровать их по drop_duplicates:

a= np.sort(df.to_numpy(), axis=1) 

(df.assign(one=a[:,0], two=a[:,1])   # one and two can be changed
   .drop_duplicates(['one','two'])   # taken from above
   .reindex(df.columns, axis=1)
)

yatu · Answer 2 · 28 октября 2019

Один из способов - использовать np.unique с return_index=True и использовать результат для индексации кадра данных:

a = np.sort(df.values)
_, ix = np.unique(a, return_index=True, axis=0)

print(df.iloc[ix, :])

    c1  c2
0    0   0
1    0   1
20   2   0
3    0   3
40   4   0
50   5   0
6    0   6
70   7   0
8    0   8
9    0   9
11   1   1
21   2   1
13   1   3
41   4   1
51   5   1
16   1   6
71   7   1
...

WeNYoBen · Answer 3 · 28 октября 2019

Я сделаю

df[~pd.DataFrame(np.sort(df.values,1)).duplicated().values]

Из панд и нудистых три

s=pd.crosstab(df.c1,df.c2)
s=s.mask(np.triu(np.ones(s.shape)).astype(np.bool) & s==0).stack().reset_index()

Divakar · Answer 4 · 28 октября 2019

Вот один на основе NumPy для целых чисел -

def remove_symm_pairs(df):
    a = df.to_numpy(copy=False)
    b = np.sort(a,axis=1)
    idx = np.ravel_multi_index(b.T,(b.max(0)+1))
    sidx = idx.argsort(kind='mergesort')
    p = idx[sidx]
    m = np.r_[True,p[:-1]!=p[1:]]
    a_out = a[np.sort(sidx[m])]
    df_out = pd.DataFrame(a_out)
    return df_out

Если вы хотите сохранить индексные данные такими, какие они есть, используйте return df.iloc[np.sort(sidx[m])].

Для общих чисел (целые числа / числа с плавающей запятой)и т. д.), мы будем использовать view-based one -

# https://stackoverflow.com/a/44999009/ @Divakar
def view1D(a): # a is array
    a = np.ascontiguousarray(a)
    void_dt = np.dtype((np.void, a.dtype.itemsize * a.shape[1]))
    return a.view(void_dt).ravel()

и просто заменим шаг, чтобы получить idx на idx = view1D(b) в remove_symm_pairs.

Federico Poloni · Answer 5 · 29 октября 2019

Если это должно быть fast , и если ваши переменные являются целочисленными, то может помочь следующий трюк: пусть v,w будет столбцами вашего вектора;построить [v+w, np.abs(v-w)] =: [x, y];затем лексикографически отсортируйте эту матрицу, удалите дубликаты и, наконец, сопоставьте ее с [v, w] = [(x+y), (x-y)]/2.

Найти симметричные пары быстро в NumPy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

`frozenset`

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найти симметричные пары быстро в NumPy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

frozenset

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов

`frozenset`