Question

У меня есть CSV-файл с 300 000+ строками, я проверил количество дубликатов в столбце с помощью .duplicated().sum(), это 35 968. Есть ли способ получить эти 35968 в списке отдельных * 1003?* файл?

mohanys · Answer 1 · 20 сентября 2019

Вы, вероятно, можете сделать df[df.duplicated()].to_csv('output.csv').Для этого необходимо, чтобы строка дублировалась во всех столбцах.

Если вы хотите удалить дубликаты, если они дублируются только в одном столбце, используйте df[df['column'].duplicated()].to_csv('op.csv')

Как разделить дубликаты из csv в отдельный список в python / pandas?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как разделить дубликаты из csv в отдельный список в python / pandas?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов