Я пытаюсь replace
duplicate
значений для нескольких columns
в pandas
df
. Для df
ниже у меня есть даты и значения, соответствующие этим датам. Все значения одинаковы для каждой даты. Я просто хочу сохранить первое значение для каждой даты и заменить следующие значения duplicate
на np.nan
. Ниже моя попытка:
import pandas as pd
import numpy as np
d = ({
'Date' : ['1/1/18','1/1/18','1/1/18','2/1/18','2/1/18','3/2/18','3/2/18','3/2/18'],
'Val_D' : [10,10,10,22,22,10,10,10],
'Val_M' : [100,100,100,100,100,240,240,240],
})
df = pd.DataFrame(data = d)
df['Date'] = pd.to_datetime(df['Date'], format= '%d/%m/%y')
pd.Series([10,22,100,240]).duplicated()
dup = df.apply(pd.Series.duplicated, axis = 1)
df = df.where(~dup,np.nan)
print(df)
Предполагаемый результат:
Date Val_D Val_M
0 1/1/18 10 100
1 1/1/18
2 1/1/18
3 2/1/18 22
4 2/1/18
5 3/2/18 10 240
6 3/2/18
7 3/2/18