Pandas dataframe - дублируются в данных, но дубликаты не находятся в тех же столбцах - PullRequest
0 голосов
/ 12 июля 2020

У меня есть df, где есть повторяющиеся строки в совокупности, но в такой форме:

timestamp   animal_1  animal_2  
2020-06-28  14:28:57  dog fox    
2020-06-28  14:28:57  fox dog   
2020-06-29  18:28:57  dog fox   
2020-06-29  18:28:57  fox dog   
2020-06-30  17:35:57  dog fox   
2020-06-30  17:35:57  fox dog  

Я хочу сохранить только строки с уникальной временной меткой, за которой следует одна комбинация обоих животных. Из приведенного выше df я хотел бы вернуть только следующее:

timestamp   animal_1  animal_2   
2020-06-28  14:28:57  dog fox    
2020-06-29  18:28:57  fox dog  
2020-06-30  17:35:57  dog fox  

Важно то, что я возвращаю количество раз, когда эти 2 животных взаимодействовали.

Я пробовал множественную сортировку, варианты группировки с использованием pandas, но безуспешно.

1 Ответ

1 голос
/ 12 июля 2020

Сначала нам нужно отсортировать столбец животные, drop_duplicates

df[['animal_1', 'animal_2']]=np.sort(df[['animal_1', 'animal_2']].values, axis=1)
df=df.drop_duplicates()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...