Панды 'dupout', как просмотреть удаленные дубликаты файлов - PullRequest
0 голосов
/ 17 мая 2018

В pandas Я использую drop_duplicates(subset='Full Name', inplace=True) для удаления дубликатов записей, однако я хотел бы просмотреть удаленные дубликаты записей для ручной проверки. Как я могу это сделать?

1 Ответ

0 голосов
/ 17 мая 2018

Используйте duplicated и параметр keep=False для возврата всех дубликатов с boolean indexing для фильтрации:

df = pd.DataFrame({'Full Name':list('abcdac'),
                   'Some val':[4,5,4,5,5,4]})

print (df)
  Full Name  Some val
0         a         4
1         b         5
2         c         4
3         d         5
4         a         5
5         c         4

df = df[df.duplicated(subset='Full Name', keep=False)]
print (df)
  Full Name  Some val
0         a         4
2         c         4
4         a         5
5         c         4
...