Панды сбрасывают дубликаты в CSV - PullRequest
0 голосов
/ 20 сентября 2018

У меня есть следующий код:

import pandas as pd

df = pd.read_csv('/home/test/cities.csv')

dupes = df.drop_duplicates(subset=['latitude', 'longitude'], keep=False)

dupes.to_csv('/home/test/results.csv')

Я хочу отбросить все записи с дублированной информацией о широте и долготе.

Выходной CSV-файл содержит все недублированные записи.

Любые предложения о том, как извлечь все дубликаты записей?

1 Ответ

0 голосов
/ 20 сентября 2018

duplicated

сестринский метод drop_duplicates

these_are_the_dupes = df[df.duplicated(subset=['latitude', 'longitude'], keep=False)]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...