Слияние датафрейма с разными датами? - PullRequest
0 голосов
/ 25 декабря 2018

Я хочу объединить отдельный фрейм данных (df2) с основным фреймом данных (df1), но если для данной строки даты в df1 не существуют в df2, то ищите недавнюю дату до базовой даты вdf1.

Я пытался использовать pd.merge, но он удалял строки с несопоставленными датами и сохранял только те строки, которые совпадают в обеих df.

df1 = [['2007-01-01','A'],
       ['2007-01-02','B'],
       ['2007-01-03','C'],
       ['2007-01-04','B'],
       ['2007-01-06','C']]

df2 = [['2007-01-01','B',3],
       ['2007-01-02','A',4],
       ['2007-01-03','B',5],
       ['2007-01-06','C',3]]

df1 = pd.DataFrame(df1)
df2 = pd.DataFrame(df2)
df1[0] = pd.to_datetime(df1[0])
df2[0] = pd.to_datetime(df2[0])

Current df1|pd.merge ():

    0           1   2
0   2007-01-06  C   3  

Получает только точную дату между обоими df, не учитывает значения из последних дат.

Ожидаемый df1:

    0           1   2
0   2007-01-01  A   NaN
1   2007-01-02  B   3
2   2007-01-03  C   NaN
3   2007-01-04  B   3
4   2007-01-06  C   3

Получение NaN, потому что в df2 данные не существуют ни в эту дату, ни в эту дату.Для строки индекса 1 он получает данные за день до этого, а для строки индекса 4 - данные точно в тот же день.

Ответы [ 2 ]

0 голосов
/ 25 декабря 2018

Проверьте вывод, используя merge_asof

pd.merge_asof(df1,df2,on=0,by=1,allow_exact_matches=True)
Out[15]: 
           0  1    2
0 2007-01-01  A  NaN
1 2007-01-02  B  3.0
2 2007-01-03  C  NaN
3 2007-01-04  B  5.0 # here should be 5 since 5 ' date is more close. also df2 have two B 
4 2007-01-06  C  3.0
0 голосов
/ 25 декабря 2018

Используя ваш код слияния, который, как я полагаю, у вас есть, поскольку его нет в вашем вопросе, введите аргумент how=left или how=outer.

Это должно выглядеть следующим образом:

dfmerged = pd.merge(df1, df2, how='left', left_on=['Date'], right_on=['Date'])  

Затем можно использовать нарезку и переименование, чтобы сохранить нужные столбцы.

dfmerged = dfmerged[['Date', 'Letters', 'Numbers']]

Примечание. Я не знаю названий ваших столбцов, поскольку вы не указали код.Заменить при необходимости

...