Агрегирование данных Python Pandas по временному интервалу - PullRequest
0 голосов
/ 26 ноября 2018

У меня есть проблема, которую я не могу решить в Python (я ранее делал это в SQL, и я не так хорош в Python, как в SQL)

ЭтоПример моих данных:

            desc        date_1      date_2      date_3      values
54287171    cc-cc       2018-03-14  2017-07-03  2018-05-21  55
49410141    other-dd    2012-01-18  2017-01-26  2011-12-30  17
37694577    other-dd    2018-07-05  2017-07-25  2018-06-19  9
54051782    other-cc    2014-10-23  2017-11-24  2014-10-31  37
7378464     dd-cc       2016-08-05  2018-05-15  2016-07-22  92
29665541    dd-cc       2011-12-14  2017-08-01  2012-05-01  40
2999878     dd-cc       2018-10-03  2018-04-13  2018-09-17  37
39453869    cc-cc       2015-11-24  2017-09-09  2015-11-21  81
7181109     dd-dd       2018-01-18  2017-11-24  2018-01-15  27
29580865    dd-cc       2017-04-24  2017-09-07  2017-05-04  38
14778957    other-cc    2017-11-02  2017-06-20  2018-06-26  49
32500886    cc-dd       2017-01-12  2017-05-26  2017-01-12  50
52146154    other-cc    2018-08-01  2017-03-27  2018-07-16  5
7208584     cc-dd       2018-03-13  2018-07-04  2018-04-26  8
35894666    cc-cc       2017-12-04  2018-06-13  2018-08-14  88
27565108    other-other 2015-10-19  2017-03-14  2016-01-22  88
50705834    other-cc    2018-01-08  2017-12-09  2018-01-11  62
45420360    dd-cc       2017-10-23  2017-09-02  2018-01-29  52
55933497    dd-cc       2017-04-14  2018-06-07  2017-09-27  36
46160680    dd-cc       2014-06-05  2018-01-16  2016-01-27  87

Короче, я пытаюсь воссоздать эту функцию:

SUM(CASE 
WHEN date_1 <= date_2 - interval '11' month
AND  date_3 > date_2 - interval '11' month
THEN values
end)

Но затем также сгруппировать по столбцу desc.

Итак, я пытаюсь разработать логику, которая будет создавать интервал между датами и суммировать все значения в этом интервале.Чтобы дать дополнительный контекст, я пытаюсь достичь двух вещей:

  • «date_2» - это дата события, и я пытаюсь суммировать значения в тот момент времени.Это только что достигнуто с помощью groupby?
  • Затем я пытаюсь добавить интервал с шагом в месяц, то есть, ту же функцию, суммируя значения, но за 12 месяцев до даты_2, затем за 11 месяцев до даты_2, затемЗа 10 месяцев до даты_2.

Пример выходных данных должен выглядеть примерно так:

    desc        interval         values_sum
    cc-cc       at_date          55
    cc-dd       at_date          17
    other-dd    at_date          9
    cc-cc       date_minus_1     37
    cc-dd       date_minus_1     92
    other-dd    date_minus_1     40               
    cc-cc       date_minus_2     37

Любая помощь будет принята с благодарностью.

Ответы [ 2 ]

0 голосов
/ 27 ноября 2018

Хорошо, поэтому, используя приведенный ниже ответ и помощь кого-то на работе, я попробовал несколько разных вариантов, это самое краткое решение, которое мы придумали.

from dateutil.relativedelta import relativedelta
for i in np.arange(-12,12,1):
      df['Month_' + str(i)] = df.apply(lambda x: x['values'] 
                                       if (x['date_2'] <= x['date_1'] + relativedelta(months=i)) \
                                                 & (x['date_3'] > x['date_2'] + relativedelta(months=i)) 
                                       else 0, axis=1)

ТогдаПоследняя часть была простой группой по двум полям, суммируемой по сумме.т.е. gf.groupby(['field_1','field_2']).sum()

0 голосов
/ 26 ноября 2018

Надеюсь, я правильно понимаю ваш вопрос.

  1. Да, groupby() группирует по свойствам для одного или нескольких столбцов.Вы можете группировать по "date_2" и / или по "desc" и / или по любым другим столбцам, которые вам нравятся.
  2. Вы можете определять условия, сохранять их в кадре данных, а затем группировать по ним.В вашем случае условия будут запрашивать, предшествует ли «date_1» дате «date_2» хотя бы на 11 месяцев.Самая сложная часть об этом - таймделта за 11 месяцев.Простой способ добиться этого - использовать numpy.timedelta64(11, 'M').

Потенциальная проблема заключается в том, что функция timedelta разрешает это на общем временном расстоянии и не сохраняет деноминацию в месяцах.Это может быть проблематично, потому что разные месяцы не одинаково длинные.Если вы заботитесь только о месяцах, рассмотрите возможность хранения только месяцев из некоторого эталонного времени.

Сценарий, который может служить примером:

""" Create an example dataset """

import numpy as np
import pandas as pd
df = pd.DataFrame(columns=["desc",  "date_1", "date_2", "date_3", "values"])
df.loc["54287171"] = ["cc-cc", pd.Timestamp("2018-03-14"), pd.Timestamp("2017-07-03"), pd.Timestamp("2018-05-21"), 55]
df.loc["49410141"] = ["other-dd", pd.Timestamp("2012-01-18"), pd.Timestamp("2017-01-26"), pd.Timestamp("2011-12-30"), 17]
df.loc["37694577"] = ["other-dd", pd.Timestamp("2018-07-05"), pd.Timestamp("2017-07-25"), pd.Timestamp("2018-06-19"), 9]
df.loc["54051782"] = ["other-cc", pd.Timestamp("2014-10-23"), pd.Timestamp("2017-11-24"), pd.Timestamp("2014-10-31"), 37]
df.loc["7378464"] = ["dd-cc", pd.Timestamp("2016-08-05"), pd.Timestamp("2018-05-15"), pd.Timestamp("2016-07-22"), 92]
df.loc["29665541"] = ["dd-cc", pd.Timestamp("2011-12-14"), pd.Timestamp("2017-08-01"), pd.Timestamp("2012-05-01"), 40]
df.loc["2999878"] = ["dd-cc", pd.Timestamp("2018-10-03"), pd.Timestamp("2018-04-13"), pd.Timestamp("2018-09-17"), 37]
df.loc["39453869"] = ["cc-cc", pd.Timestamp("2015-11-24"), pd.Timestamp("2017-09-09"), pd.Timestamp("2015-11-21"), 81]
df.loc["7181109"] = ["dd-dd", pd.Timestamp("2018-01-18"), pd.Timestamp("2017-11-24"), pd.Timestamp("2018-01-15"), 27]
df.loc["29580865"] = ["dd-cc", pd.Timestamp("2017-04-24"), pd.Timestamp("2017-09-07"), pd.Timestamp("2017-05-04"), 38]
df.loc["14778957"] = ["other-cc", pd.Timestamp("2017-11-02"), pd.Timestamp("2017-06-20"), pd.Timestamp("2018-06-26"), 49]
df.loc["32500886"] = ["cc-dd", pd.Timestamp("2017-01-12"), pd.Timestamp("2017-05-26"), pd.Timestamp("2017-01-12"), 50]
df.loc["52146154"] = ["other-cc", pd.Timestamp("2018-08-01"), pd.Timestamp("2017-03-27"), pd.Timestamp("2018-07-16"), 5]
df.loc["7208584"] = ["cc-dd", pd.Timestamp("2018-03-13"), pd.Timestamp("2018-07-04"), pd.Timestamp("2018-04-26"), 8]
df.loc["35894666"] = ["cc-cc", pd.Timestamp("2017-12-04"), pd.Timestamp("2018-06-13"), pd.Timestamp("2018-08-14"), 88]
df.loc["50705834"] = ["other-cc", pd.Timestamp("2018-01-08"), pd.Timestamp("2017-12-09"), pd.Timestamp("2018-01-11"), 62]
df.loc["45420360"] = ["dd-cc", pd.Timestamp("2017-10-23"), pd.Timestamp("2017-09-02"), pd.Timestamp("2018-01-29"), 52]
df.loc["55933497"] = ["dd-cc", pd.Timestamp("2017-04-14"), pd.Timestamp("2018-06-07"), pd.Timestamp("2017-09-27"), 36]
df.loc["46160680"] = ["dd-cc", pd.Timestamp("2014-06-05"), pd.Timestamp("2018-01-16"), pd.Timestamp("2016-01-27"), 87]

"""Question 1: Yes, groupby() groups by properties for one or more columns"""
df.groupby(["desc"]).sum()
#          values
#desc            
#cc-cc        224
#cc-dd         58
#dd-cc        382
#dd-dd         27
#other-cc     153
#other-dd      26

"""Question 2: You can define conditions, save them in the dataframe, then group by those too."""
df["condition_1"] = df["date_2"] >= df["date_1"] + pd.Timedelta(np.timedelta64(11, 'M'))
df["condition_2"] = df["date_3"] >= df["date_2"] + pd.Timedelta(np.timedelta64(11, 'M'))

df.groupby(["desc", "condition_1", "condition_2"]).sum()
#
#desc     condition_1 condition_2        
#cc-cc    False       False           143
#         True        False            81
#cc-dd    False       False            58
#dd-cc    False       False           127
#         True        False           255
#dd-dd    False       False            27
#other-cc False       False            62
#                     True             54
#         True        False            37
#other-dd False       False             9
#         True        False            17
...