Question

Если у меня есть pandas df, который выглядит следующим образом:

+--------+-----------+--------
|Col1    | Col2      |Col3      |
|--------+-----------+----------+
|75      |  84       |    A     | 
|84      |   68      |    B     |                
|75      |   84      |    C     |
|75      |   84      |    A     |
+--------+-----------+----------+

Я хочу, чтобы вывод был

+--------+-----------+--------
|Col1    | Col2      |Col3      |
|--------+-----------+----------+
|75      |  84       |    A     | 
|75      |  84       |    C     |

, т. Е. Везде, где значения Col1 и Col 2 то же самое, но Col 3 отличается. Я пытался

df[df.duplicated(['ID'], keep=False)]

Но это не идентифицирует дубликаты, основанные только на сходстве 2 столбцов.

Mayank Porwal · Answer 1 · 06 апреля 2020

In [288]: df[df.duplicated(['Col1', 'Col2'], keep=False)].drop_duplicates()
Out[288]: 
   Col1  Col2 Col3
0    75    84    A
2    75    84    C

jezrael · Answer 2 · 06 апреля 2020

Сначала получите все дубликаты по Col1 и Col2, а затем удалите дубликаты по всем столбцам по DataFrame.drop_duplicates:

df = df[df.duplicated(['Col1', 'Col2'], keep=False)].drop_duplicates()
print (df)
   Col1  Col2 Col3
0    75    84    A
2    75    84    C

Как выбрать pandas строк на основе повторяющихся значений столбцов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как выбрать pandas строк на основе повторяющихся значений столбцов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов