Панды дублируют 3 поля - PullRequest
       8

Панды дублируют 3 поля

0 голосов
/ 01 октября 2018

У меня есть следующий код:

df = pd.read_csv('/pr1/test/data.csv')
dupes = df[df.duplicated(subset=['state','county', 'name'], keep=False)]
dupes.to_csv('/pr1/test/duplicates.csv')

Информационный кадр:

state   county      name
MS      95          Woodland Heights
MS      105         Woodland Heights
VA      179         Woodlawn
VA      775         Woodlawn
VA      179         Woodlawn
VA      775         Woodlawn

Желаемый выход:

state   county      name
VA      179         Woodlawn
VA      775         Woodlawn

Токовый выход:

 state   county      name

Есть мысли о том, как собрать дубликаты данных?

1 Ответ

0 голосов
/ 01 октября 2018

Аргумент keep=False помечает все повторяющиеся строки в указанных столбцах как True.Если каждая строка имеет уникальную комбинацию 'state', 'county' и 'name', то все строки будут помечены False.См. Также pd.DataFrame.duplicated.

Другими словами, ваш результат пуст, поскольку в этих 3 столбцах нет дубликатов.Вам необходимо указать некоторую логику, которая возвращает True значения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...