Я хотел бы рассчитать распределение элемента на основе того, сколько времени занимает между первым и последним заказом этого элемента.Чтобы достичь этой цели, сначала я должен получить эту дельту времени для каждого элемента.
Мой исходный кадр данных имеет три столбца: «Order_ID», «Order_DATE», «Medium_ID», как показано в следующем примере:
df = pd.DataFrame({'Medium_ID': {0: '1359',
1: '1360',
2: '1359',
3: '1360',
4: '1360',
5: '1404',
6: '1381',
7: '1359',
8: '1419',
9: '1360'},
'Order_ID': {0: '1',
1: '2',
2: '3',
3: '4',
4: '5',
5: '6',
6: '7',
7: '8',
8: '9',
9: '10'},
'Order_DATE': {0: Timestamp('2008-04-21 00:00:00'),
1: Timestamp('2008-04-21 00:00:00'),
2: Timestamp('2008-04-21 00:00:00'),
3: Timestamp('2008-04-21 00:00:00'),
4: Timestamp('2008-04-22 00:00:00'),
5: Timestamp('2008-04-22 00:00:00'),
6: Timestamp('2008-04-23 00:00:00'),
7: Timestamp('2008-04-23 00:00:00'),
8: Timestamp('2008-04-23 00:00:00'),
9: Timestamp('2008-04-28 00:00:00')}}))
Поскольку у нас может быть несколько идентификаторов order_ID для одного и того же medium_ID, сначала я попытался сгруппировать их по столбцу «Medium_ID», но затем я не знаю, как развиваться.
Iхотел бы иметь новый фрейм данных с двумя столбцами: «Medium_ID» и «Days_between_the_last_and_the_first-order» и, в конце концов, показать распределение для серии «Days_between_the_last_and_the_first-order».