Я пытаюсь подсчитать количество комментариев, которые каждый пользователь разместил в течение 24 часов.Другими словами: подсчитайте количество дубликатов (= идентификаторов пользователей) в течение 24 часов.Если счет>> 5, я хочу его записать.
Пример (окончательный вывод ниже):
- Если пользователь с идентификатором 100 оставил комментарий 13/02/201805:15 и 19/02/2018 03:52 и 19/02/2018 16:53 для этого идентификатора пользователя должно быть 2.Однако я не хочу записывать это, поскольку это не> = 5
Если пользователь с идентификатором 521 разместил комментарии к
- 13/02/2018 02:08,
- 19/02/2018 15:05,
- 19/02/2018 15:53,
- 19/02/2018 15:55,
- 19/02/2018 16:00,
- 19/02/2018 18:00,
- 20/02/2018 18: 40
Первый счет для end_date_24 19/02/2018 18:00 должен быть 5, второй счет для end_date_24 19/02/2018 18:40 также должен быть 5
Входные данные:
print(df)
Date User_ID Post_ID
0 13/02/2018 02:08 521 11
1 13/02/2018 05:15 100 12
2 19/02/2018 03:52 100 13
3 19/02/2018 15:05 521 14
4 19/02/2018 15:53 521 15
5 19/02/2018 15:55 521 16
6 19/02/2018 16:00 521 17
7 19/02/2018 16:53 100 18
8 19/02/2018 18:00 521 19
9 20/02/2018 18:40 521 20
Ожидаемый результат:
End_Date_24 Count_last_24H User_ID
0 19/02/2018 18:00 5 521
1 19/02/2018 18:40 5 521