Question

У меня есть следующий код:

df = pd.read_csv('/pr1/test/data.csv')
dupes = df[df.duplicated(subset=['state','county', 'name'], keep=False)]
dupes.to_csv('/pr1/test/duplicates.csv')

Информационный кадр:

state   county      name
MS      95          Woodland Heights
MS      105         Woodland Heights
VA      179         Woodlawn
VA      775         Woodlawn
VA      179         Woodlawn
VA      775         Woodlawn

Желаемый выход:

state   county      name
VA      179         Woodlawn
VA      775         Woodlawn

Токовый выход:

 state   county      name

Есть мысли о том, как собрать дубликаты данных?

jpp · Answer 1 · 01 октября 2018

Аргумент keep=False помечает все повторяющиеся строки в указанных столбцах как True.Если каждая строка имеет уникальную комбинацию 'state', 'county' и 'name', то все строки будут помечены False.См. Также pd.DataFrame.duplicated.

Другими словами, ваш результат пуст, поскольку в этих 3 столбцах нет дубликатов.Вам необходимо указать некоторую логику, которая возвращает True значения.

Панды дублируют 3 поля

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды дублируют 3 поля

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов