У меня есть данные временных рядов (составляющих) одна переменная value
, а другая Temperature
import numpy as np
import pandas as pd
np.random.seed(11)
rows,cols = 50000,2
data = np.random.rand(rows,cols)
tidx = pd.date_range('2019-01-01', periods=rows, freq='T')
df = pd.DataFrame(data, columns=['Temperature','Value'], index=tidx)
Вопрос , Как мне пересчитать данные за день в отдельном pandas df с именем daily_summary
с 3 столбцами, каждый из которых содержит:
- дневное максимальное значение
- час, когда произошло максимальное значение
- записанная температура при достижении максимального значения
Я знаю, что могу использовать этот код ниже, чтобы найти максимальное дневное значение и час, когда оно произошло:
daily_summary = df.groupby(df.index.normalize())['Value'].agg(['idxmax', 'max'])
daily_summary['hour'] = daily_summary['idxmax'].dt.hour
daily_summary = daily_summary.drop(['idxmax'], axis=1)
daily_summary.rename(columns = {'max':'DailyMaxValue'}, inplace = True)
Но я теряюсь, пытаясь учесть, какая температура была во время этих ежедневных записей максимального значения ...
Было бы лучше использовать .loc
, где al oop мог бы просто фильтровать каждый день. .. Как-то так ???
for idx, days in df.groupby(df.index.date):
print(days)
daily_summary = df.loc[days['Value'].max().astype('int')]
Если я запусту это, я могу печатать каждый день days
, но daily_summary
выдаст TypeError: cannot do index indexing on <class 'pandas.core.indexes.datetimes.DatetimeIndex'> with these indexers [0] of <class 'numpy.int32'>
Любые советы очень ценятся