У меня есть pd.Series
пунктов списка. Я определяю два местоположения, которые будут дубликатами, если они имеют один или несколько общих элементов списка. Это определение должно быть транзитивным , что означает, что если местоположения A
и B
являются дубликатами, а местоположения B
и C
являются дубликатами, то местоположения A
и C
являются дубликатами.
Примеры:
In [117]: df
Out[117]:
A dupe_group_ix
0 [A, B] 0
1 [D, X] 0
2 [B] 0
3 [D, A] 0
4 [A] 0
Все строки являются дубликатами. Обратите внимание, что строки 0
и 1
являются дубликатами, поскольку строки 0
и 3
являются дубликатами, как и строки 1
и 3
.
In [125]: df
Out[125]:
A dupe_group_ix
0 [A, B] 0
1 [D, X] 1
2 [B] 0
3 [K, D] 1
4 [A] 0
В этих примерах две отдельные группы дубликатов.