У меня есть pandas dataframe, который содержит данные временного ряда, поэтому индекс dataframe имеет тип datetime64 с недельными интервалами, каждая дата происходит в понедельник каждой календарной недели.
Есть только записи вфрейм данных, когда заказ был записан, поэтому, если не было размещено ордера, в фрейме данных нет соответствующей записи.Я хотел бы «дополнить» этот фрейм данных так, чтобы любые недели в данном диапазоне дат были включены в фрейм данных и было введено соответствующее нулевое количество.
Мне удалось добиться этого, создав фиктивный фрейм данных, который включает запись для каждой недели, которую я хочу, с нулевым количеством, а затем объединил эти два фрейма данных и удалил столбец фиктивного фрейма данных.Это приводит к третьему дополненному фрейму данных.
Я не чувствую, что это отличное решение проблемы, и будучи новичком в пандах, хотел знать, есть ли более конкретный и / или питонический способ достижения этого, вероятно, без необходимости создания фиктивного фрейма данных изатем объединить.
Код, который я использовал ниже, чтобы получить мое текущее решение:
# Create the dummy product
# Week hold the week date of the order, want to set this as index later
group_by_product_name = df_all_products.groupby(['Week', 'Product Name'])['Qty'].sum()
first_date = group_by_product_name.head(1) # First date in entire dataset
last_date = group_by_product_name.tail().index[-1] # last date in the data set
bdates = pd.bdate_range(start=first_date, end=last_date, freq='W-MON')
qty = np.zeros(bdates.shape)
dummy_product = {'Week':bdates, 'DummyQty':qty}
df_dummy_product = pd.DataFrame(dummy_product)
df_dummy_product.set_index('Week', inplace=True)
group_by_product_name = df_all_products.groupby('Week')['Qty'].sum()
df_temp = pd.concat([df_dummy_product, group_by_product_name], axis=1, join='outer')
df_temp.fillna(0, inplace=True)
df_temp.drop(columns=['DummyQty'], axis=1, inplace=True)
Проблема с этим подходом иногда (я не знаю почему), индексы неПодходя правильно, я думаю, что каким-то образом dtype индекса на одном из фреймов данных теряет свой тип и переходит к объекту вместо того, чтобы оставаться с dtype datetime64.Поэтому я уверен, что есть лучший способ решить эту проблему, чем мое текущее решение.
РЕДАКТИРОВАТЬ
Вот примерный кадр данных с «пропущенными записями»
df1 = pd.DataFrame({'Week':['2018-05-28', '2018-06-04',
'2018-06-11', '2018-06-25'], 'Qty':[100, 200, 300, 500]})
df1.set_index('Week', inplace=True)
df1.head()
Вот пример дополненного кадра данных, который содержит дополнительные пропущенные даты в диапазоне дат
df_zero = pd.DataFrame({'Week':['2018-05-21', '2018-05-28', '2018-06-04',
'2018-06-11', '2018-06-18', '2018-06-25', '2018-07-02'], 'Dummy Qty':[0, 0, 0, 0, 0, 0, 0]})
df_zero.set_index('Week', inplace=True)
df_zero.head()
И это ожидаемый результат после объединения двух фреймов данных
df_padded = pd.concat([df_zero, df1], axis=1, join='outer')
df_padded.fillna(0, inplace=True)
df_padded.drop(columns=['Dummy Qty'], inplace=True)
df_padded.head(6)
Обратите внимание, что отсутствующие записи добавляются до и между другими записями, где это необходимо в конечном фрейме данных.
Редактировать 2:
В соответствии с запросом приведен пример того, как будет выглядеть исходный фрейм данных продукта:
df_all_products = pd.DataFrame({'Week':['2018-05-21', '2018-05-28', '2018-05-21', '2018-06-11', '2018-06-18',
'2018-06-25', '2018-07-02'],
'Product Name':['A', 'A', 'B', 'A', 'B', 'A', 'A'],
'Qty':[100, 200, 300, 400, 500, 600, 700]})