Как разделить дубликаты из csv в отдельный список в python / pandas? - PullRequest
0 голосов
/ 20 сентября 2019

У меня есть CSV-файл с 300 000+ строками, я проверил количество дубликатов в столбце с помощью .duplicated().sum(), это 35 968. Есть ли способ получить эти 35968 в списке отдельных * 1003?* файл?

1 Ответ

1 голос
/ 20 сентября 2019

Вы, вероятно, можете сделать df[df.duplicated()].to_csv('output.csv').Для этого необходимо, чтобы строка дублировалась во всех столбцах.

Если вы хотите удалить дубликаты, если они дублируются только в одном столбце, используйте df[df['column'].duplicated()].to_csv('op.csv')

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...