Удалить повторяющиеся значения в столбцах данных pandas определенных столбцов - PullRequest
0 голосов
/ 06 мая 2018

У меня есть фрейм данных с несколькими столбцами, и я хочу выбрать подмножество столбцов и удалить из него дублирующиеся значения.

Я не хочу удалять строки, хочу удалить только повторяющиеся значения столбцов.

Мой фрейм данных выглядит так:

enter image description here

Я хочу удалить дубликаты из этих столбцов ["PLACEMENT # NAME", "IMPRESSIONS","ENGAGEMENTS","DPEENEGAGEMENTS"], поэтому мой вывод будет выглядеть следующим образом. enter image description here

Пожалуйста, не воспринимайте это как опровергнутое, так как в будущем мне могут запретить задавать вопросы, кроме опечаток, и я здесь новичок

1 Ответ

0 голосов
/ 06 мая 2018

Вот некоторые из ваших данных

import pandas as pd
df = pd.DataFrame({'PLACEMENT # NAME': ['Blend of Vdx Display', 'Blend of Vdx Display',
                                        'Blend of Vdx Display', 'Blend of Vdx Display'],
                  'PRODUCT': ['Display', 'Display', 'Mobile', 'Mobile'],
                  'VIDEONAME': ['Features', 'TVC', 'video1', 'video2'],
                  'COST_TYPE': ['CPE', 'CPE', 'CPE', 'CPE'],
                  'Views': [1255, 10479, 156, 20],
                  '50_pc_video': [388, 2402, 38, 10],
                  '75_pc_cideo_10': ['', '', '', ''],
                  'IMPRESSIONS': [778732,778732,778732,778732],
                  'ENGAGEMENTS': [13373, 13373, 13373, 13373],
                  'DPEENGAGEMENTS': [7142, 7142, 7142, 7142]})

Вы можете выполнить то, что хотите, с помощью .loc + .duplicated()

dup_cols = ['PLACEMENT # NAME', 'IMPRESSIONS', 'ENGAGEMENTS', 'DPEENGAGEMENTS']
df.loc[df.duplicated(dup_cols), dup_cols] = ''
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...