У меня есть 2 фрейма данных с диапазонами дат
>>>>df1 = pd.DataFrame({'ID': ['a', 'a', 'a', 'a', 'b', 'b', 'b'],
'from_dt':[pd.to_datetime('2004-01-01 00:00:00'),
pd.to_datetime('2005-01-01 00:00:00'),
pd.to_datetime('2007-01-01 00:00:00'),
pd.to_datetime('2011-01-01 00:00:00'),
pd.to_datetime('2004-01-01 00:00:00'),
pd.to_datetime('2012-01-01 00:00:00'),
pd.to_datetime('2019-01-01 00:00:00'),
],
'thru_dt':[pd.to_datetime('2004-12-31 23:59:59'),
pd.to_datetime('2006-12-31 23:59:59'),
pd.to_datetime('2010-12-31 23:59:59'),
pd.to_datetime('2075-12-31 23:59:59'),
pd.to_datetime('2011-12-31 23:59:59'),
pd.to_datetime('2018-12-31 23:59:59'),
pd.to_datetime('2075-12-31 23:59:59'),
],
'val':[1,2,3,4,5,6,7]})
>>>>df1
ID from_dt thru_dt val
0 a 2004-01-01 2004-12-31 23:59:59 1
1 a 2005-01-01 2006-12-31 23:59:59 2
2 a 2007-01-01 2010-12-31 23:59:59 3
3 a 2011-01-01 2075-12-31 23:59:59 4
4 b 2004-01-01 2011-12-31 23:59:59 5
5 b 2012-01-01 2018-12-31 23:59:59 6
6 b 2019-01-01 2075-12-31 23:59:59 7
Первый содержит карту идентификатора для значения
>>>>df2 = pd.DataFrame({'ID':['a', 'a', 'b'], 'ID2':['A1', 'A2', 'B1'],
'from_dt':[pd.to_datetime('2003-01-01 00:00:00'),
pd.to_datetime('2010-01-01 00:00:00'),
pd.to_datetime('2005-01-01 00:00:00'),
],
'thru_dt':[pd.to_datetime('2009-12-31 23:59:59'),
pd.to_datetime('2075-12-31 23:59:59'),
pd.to_datetime('2075-12-31 23:59:59'),
]
})
>>>>df2
ID ID2 from_dt thru_dt
0 a A1 2003-01-01 2009-12-31 23:59:59
1 a A2 2010-01-01 2075-12-31 23:59:59
2 b B1 2005-01-01 2075-12-31 23:59:59
Второй фрейм данных имеет один идентификатор, сопоставленный другому.
Я хотел бы объединить их с помощью некоторой внутренней логики объединения c, чтобы у меня был плоский файл данных со следующим выводом
>>>>df3 = some_function(df1, df2, end_date=pd.to_datetime('2020-12-31'))
>>>>df3
ID2 Date val
0 A1 2004-01-01 1
1 A1 2004-01-02 1
.
.
x A1 2004-12-31 1
x A1 2005-01-01 2
x A1 2005-01-02 2
.
.
x A1 2009-12-31 3
x A2 2010-01-01 3
.
.
x A2 2020-12-31 4
x B1 2005-01-01 5
.
.
x B1 2020-12-31 7
Я уверен, что могу oop и сделайте это неэффективным способом. Я хотел бы узнать о любых существующих инструментах и библиотеках, которые могут справиться с такими задачами.
Спасибо!