Как получить список первого повторяющегося значения в столбце в файле csv с pandas - PullRequest
0 голосов
/ 05 мая 2020

Мне нужно найти все дубликаты в одном столбце файла csv, а затем экспортировать их в другой файл csv. Я пробовал ответы из этого: Как мне получить список всех повторяющихся элементов, используя pandas в python? , но я не получаю правильный результат. Пример моего файла csv:

    filename,ID,status
    71.wav,107e,accepted
    85.wav,9a99,accepted
    85.wav,d27a,accepted
    86.wav,ea4f,accepted
    86.wav,9f9b,accepted
    75.wav,b734,accepted
    75.wav,3dfb,accepted

Я хотел бы получить вывод:

    85.wav,9a99,accepted
    86.wav,ea4f,accepted
    75.wav,b734,accepted

Я пробовал:

    ids = df["filename"]
    dups = df[ids.isin(ids[ids.duplicated()])].sort_values("filename")
    print dups 

Результат этого дал уникальные значения а также повторяющиеся значения.

Моим ожидаемым результатом будет файл csv с первым дубликатом, перечисленным, как показано выше (я отредактировал вопрос, чтобы уточнить).

Ответы [ 2 ]

0 голосов
/ 05 мая 2020

Этот метод должен окончательно помочь.

data = {'Test':[1,2,3,4,5,6,2,4,2,5,6,3,2,7,8,9]}
df = pd.DataFrame(data)

dups = df[df.duplicated()]

возвращает

Тест 6 2 7 4 8 2 9 5 10 6 11 3 12 2

0 голосов
/ 05 мая 2020

Вы ищете что-то подобное?

df = pd.DataFrame({"id":[1,1,1,1,2,2,3,4,5],
                   "name":["Georgia","Georgia","Georgia","Georgia","Camila","Camila","Diego","Luis","Jose"]})


duplicates = df[df.duplicated(["id"])]

Возвращает

   id     name
1   1  Georgia
2   1  Georgia
3   1  Georgia
5   2   Camila
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...