Question

У меня есть данные ежедневных наблюдений с 01-01-1973 по 12-31-2014.

Использовал Pandas Grouper, и до сих пор все работало нормально для каждой частоты: я хочу сгруппировать их по десятилетиям 70-х, 80-х, 90-х и т. Д.

Я пытался сделать это как

import pandas as pd
df.groupby(pd.Grouper(freq = '10Y')).mean()

Однако это группирует их в 73-83, 83-93 и т. Д.

cs95 · Answer 1 · 03 мая 2018

Вы можете сделать небольшую арифметику за год, чтобы вычислить ее до ближайшего десятилетия:

df.groupby(df.index.year // 10 * 10).mean()

ALollz · Answer 2 · 03 мая 2018

pd.cut также работает для указания регулярной частоты с указанным начальным годом.

import pandas as pd
df
                 date  val
0 1970-01-01 00:01:18    1
1 1979-12-31 18:01:01   12
2 1980-01-01 00:00:00    2
3 1989-01-01 00:00:00    3
4 2014-05-06 00:00:00    4

df.groupby(pd.cut(df.date, pd.date_range('1970', '2020', freq='10YS'), right=False)).mean()
#                          val
#date                         
#[1970-01-01, 1980-01-01)  6.5
#[1980-01-01, 1990-01-01)  2.5
#[1990-01-01, 2000-01-01)  NaN
#[2000-01-01, 2010-01-01)  NaN
#[2010-01-01, 2020-01-01)  4.0

sacuL · Answer 3 · 03 мая 2018

Метод

@ cᴏʟᴅsᴘᴇᴇᴅ более чист, чем этот, но сохраняя ваш метод pd.Grouper, один из способов сделать это - объединить ваши данные с новым диапазоном дат, который начинается в начале десятилетия и заканчивается в конце десятилетия. , затем используйте ваш Grouper на этом. Например, с учетом начального значения df:

        date      data
0     1973-01-01 -1.097895
1     1973-01-02  0.834253
2     1973-01-03  0.134698
3     1973-01-04 -1.211177
4     1973-01-05  0.366136
...
15335 2014-12-27 -0.566134
15336 2014-12-28 -1.100476
15337 2014-12-29  0.115735
15338 2014-12-30  1.635638
15339 2014-12-31  1.930645

Объедините это с date_range кадром данных в период с 1980 по 2020 год:

new_df = pd.DataFrame({'date':pd.date_range(start='01-01-1970', end='12-31-2019', freq='D')})

df = new_df.merge(df, on ='date', how='left')

И используйте свой Grouper:

df.groupby(pd.Grouper(key='date', freq = '10AS')).mean()

Что дает вам:

                data
date                
1970-01-01 -0.005455
1980-01-01  0.028066
1990-01-01  0.011122
2000-01-01  0.011213
2010-01-01  0.029592

То же самое, но за один раз, может выглядеть так:

(df.merge(pd.DataFrame(
    {'date':pd.date_range(start='01-01-1970',
                          end='12-31-2019',
                          freq='D')}),
          how='right')
 .groupby(pd.Grouper(key='date', freq = '10AS'))
 .mean())

Группировка DataFrame по началу десятилетия с использованием панд Grouper

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Группировка DataFrame по началу десятилетия с использованием панд Grouper

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы