Я пытаюсь сделать следующее, используя Pandas (Python).
У меня есть фрейм данных со следующими столбцами:
Building, Door_Color, Door_Time_Open, Door_Time_Close, Opening_Width
Я пытаюсь сгруппировать данные по дате и времени таким образом, чтобы каждую секунду я подсчитывал количество открытых дверей и сумму width_of_opening.
например:
Data:
Building, Door_Color, Door_Time_Open, Door_Time_Close, Opening_Width
A , Red , 2000-01-01 00:00:00, 2000-01-01 00:00:05, 10
A , Red , 2000-01-01 00:00:02, 2000-01-01 00:00:04, 5
Result:
Date, Building, Door_Color, Door_Count, Sum_Opening_Width
2000-01-01 00:00:00, A, Red, 1 , 10
2000-01-01 00:00:01, A, Red, 1 , 10
2000-01-01 00:00:02, A, Red, 2 , 15
2000-01-01 00:00:03, A, Red, 2 , 15
2000-01-01 00:00:04, A, Red, 2 , 15
2000-01-01 00:00:05, A, Red, 1 , 10
2000-01-01 00:00:06, A, Red, 0 , 0
Я знаю, как создать обычную группу по нескольким столбцам и агрегировать разные столбцы по отдельности, но я не знаю, как заставить машину проверять, находится ли дата, которую мы группируем, между двумя даты в данных.
Любая помощь будет принята с благодарностью!
edit1: данные немного большие, около 6 миллионов строк.