Мне нужно найти все дубликаты в одном столбце файла csv, а затем экспортировать их в другой файл csv. Я пробовал ответы из этого: Как мне получить список всех повторяющихся элементов, используя pandas в python? , но я не получаю правильный результат. Пример моего файла csv:
filename,ID,status
71.wav,107e,accepted
85.wav,9a99,accepted
85.wav,d27a,accepted
86.wav,ea4f,accepted
86.wav,9f9b,accepted
75.wav,b734,accepted
75.wav,3dfb,accepted
Я хотел бы получить вывод:
85.wav,9a99,accepted
86.wav,ea4f,accepted
75.wav,b734,accepted
Я пробовал:
ids = df["filename"]
dups = df[ids.isin(ids[ids.duplicated()])].sort_values("filename")
print dups
Результат этого дал уникальные значения а также повторяющиеся значения.
Моим ожидаемым результатом будет файл csv с первым дубликатом, перечисленным, как показано выше (я отредактировал вопрос, чтобы уточнить).