a1234 20 сентября 2018 1

Панды сбрасывают дубликаты в CSV

a1234 / 20 сентября 2018

У меня есть следующий код:

import pandas as pd

df = pd.read_csv('/home/test/cities.csv')

dupes = df.drop_duplicates(subset=['latitude', 'longitude'], keep=False)

dupes.to_csv('/home/test/results.csv')

Я хочу отбросить все записи с дублированной информацией о широте и долготе.

Выходной CSV-файл содержит все недублированные записи.

Любые предложения о том, как извлечь все дубликаты записей?

1 Ответ

piRSquared / 20 сентября 2018

`duplicated`

сестринский метод drop_duplicates

these_are_the_dupes = df[df.duplicated(subset=['latitude', 'longitude'], keep=False)]

...