Как разделить pandas фрейм данных на несколько фреймов по месяцам и годам - PullRequest
0 голосов
/ 07 февраля 2020

У меня есть фрейм данных с разными столбцами (например, цена, идентификатор, продукт и дата), и мне нужно разделить этот фрейм данных на несколько фреймов данных на основе текущей даты системы (current_date = np.datetime64 (date.today () )).

Например, если сегодня 2020-02-07, я хочу разделить мой основной фрейм данных на три разных, где df1 будет данными за последний месяц (данные за 2020-01-07 до 2020-02-07), df2 будет данными за последние три месяца (исключая месяц уже в df1, поэтому было бы точнее сказать с 2019-10-07 по 2020-01-07), а df3 будет данные, оставленные на исходном фрейме данных.

Есть ли простой способ сделать это? Кроме того, я пытался использовать Grouper, но я снова и снова получаю эту ошибку: NameError: имя 'Grouper' не определено (моя Pandas версия - 0.24.2)

1 Ответ

1 голос
/ 07 февраля 2020

Вы можете использовать offsets.DateOffset для последних 1-м и 3-месячного времени, отфильтровать по boolean indexing:

rng = pd.date_range('2019-10-10', periods=20, freq='5d')
df = pd.DataFrame({'date': rng, 'id': range(20)})  
print (df)
         date  id
0  2019-10-10   0
1  2019-10-15   1
2  2019-10-20   2
3  2019-10-25   3
4  2019-10-30   4
5  2019-11-04   5
6  2019-11-09   6
7  2019-11-14   7
8  2019-11-19   8
9  2019-11-24   9
10 2019-11-29  10
11 2019-12-04  11
12 2019-12-09  12
13 2019-12-14  13
14 2019-12-19  14
15 2019-12-24  15
16 2019-12-29  16
17 2020-01-03  17
18 2020-01-08  18
19 2020-01-13  19

current_date = pd.to_datetime('now').floor('d')
print (current_date)
2020-02-07 00:00:00

last1m = current_date - pd.DateOffset(months=1)
last3m = current_date - pd.DateOffset(months=3)

m1 = (df['date'] > last1m) & (df['date'] <= current_date)
m2 = (df['date'] > last3m) & (df['date'] <= last1m)
#filter non match m1 or m2 masks
m3 = ~(m1 | m2)

df1 = df[m1]
df2 = df[m2]
df3 = df[m3]

print (df1)
         date  id
18 2020-01-08  18
19 2020-01-13  19

print (df2)
         date  id
6  2019-11-09   6
7  2019-11-14   7
8  2019-11-19   8
9  2019-11-24   9
10 2019-11-29  10
11 2019-12-04  11
12 2019-12-09  12
13 2019-12-14  13
14 2019-12-19  14
15 2019-12-24  15
16 2019-12-29  16
17 2020-01-03  17

print (df3)
        date  id
0 2019-10-10   0
1 2019-10-15   1
2 2019-10-20   2
3 2019-10-25   3
4 2019-10-30   4
5 2019-11-04   5
...