Python Pandas Удалить дубликаты клеток - сохранить строки - PullRequest
0 голосов
/ 14 сентября 2018

Я пытаюсь удалить дубликаты значений определенных столбцов на основе одного столбца, сохраняя при этом оставшуюся часть строки.

df = pd.DataFrame({'A':[1,2,3,4],'B':[5,5,6,7],'C':['a','a','b',c'], D:['c','d','e','f']})

Я хочу удалить значения в столбце A & B на основедубликаты в столбце C, но с сохранением всего столбца D.

Ожидаемый результат:

A B C D
1 5 a c
      d
3 6 b e
4 7 c f

1 Ответ

0 голосов
/ 14 сентября 2018

Используя простой loc

df.loc[df.C.duplicated(), ['A', 'B']] = ''

    A   B   C   D
0   1   5   a   c
1           a   d
2   3   6   b   e
3   4   7   c   f

Можно также использовать np.nan вместо пустой строки, чтобы не связываться с dtypes

...