Подсчет дубликатов / повторяющихся идентификаторов в течение 24 часов - PullRequest
0 голосов
/ 18 апреля 2019

Я пытаюсь подсчитать количество комментариев, которые каждый пользователь разместил в течение 24 часов.Другими словами: подсчитайте количество дубликатов (= идентификаторов пользователей) в течение 24 часов.Если счет>> 5, я хочу его записать.

Пример (окончательный вывод ниже):

  1. Если пользователь с идентификатором 100 оставил комментарий 13/02/201805:15 и 19/02/2018 03:52 и 19/02/2018 16:53 для этого идентификатора пользователя должно быть 2.Однако я не хочу записывать это, поскольку это не> = 5
  2. Если пользователь с идентификатором 521 разместил комментарии к

    • 13/02/2018 02:08,
    • 19/02/2018 15:05,
    • 19/02/2018 15:53,
    • 19/02/2018 15:55,
    • 19/02/2018 16:00,
    • 19/02/2018 18:00,
    • 20/02/2018 18: 40

    Первый счет для end_date_24 19/02/2018 18:00 должен быть 5, второй счет для end_date_24 19/02/2018 18:40 также должен быть 5

Входные данные:

print(df)
               Date  User_ID  Post_ID
0  13/02/2018 02:08      521       11
1  13/02/2018 05:15      100       12
2  19/02/2018 03:52      100       13
3  19/02/2018 15:05      521       14
4  19/02/2018 15:53      521       15
5  19/02/2018 15:55      521       16
6  19/02/2018 16:00      521       17
7  19/02/2018 16:53      100       18
8  19/02/2018 18:00      521       19
9  20/02/2018 18:40      521       20

Ожидаемый результат:

        End_Date_24  Count_last_24H  User_ID
0  19/02/2018 18:00               5      521
1  19/02/2018 18:40               5      521

1 Ответ

0 голосов
/ 18 апреля 2019

Я бы пошел за пандами.Затем написал функцию, которая сокращает фрейм данных до записей с заданным периодом времени и заданным идентификатором пользователя.В конце подсчет и регистрация, если условие выполнено.Взгляните на pandas 'DataFrame .Я думаю, что это дает вам все, что вы хотите.

...