Преобразование кадра данных одного года в кадр данных с 365 столбцами (по одному за день) - PullRequest
1 голос
/ 07 мая 2020

У меня есть датафрейм с временным интервалом 5 минут. Однако всего интервала нет. Пример:

Date                Value_1
...
2019-01-01 15:30:00 2.4866
2019-01-01 15:35:00 2.703
2019-01-01 15:40:00 0.0
2019-01-02 09:05:00 8.3087
2019-01-02 09:10:00 7.5134
2019-01-02 09:15:00 6.637
...

Я хотел бы знать, есть ли простой способ или функция (я ничего не нашел), чтобы иметь фрейм данных из 288 интервалов, основанных только на времени

00:00:00
00:05:00
00:10:00
...
23:50:00
23:55:00

, где каждый столбец - день (365 за один год). Наконец, я хотел бы заполнить этот фрейм данных предыдущим. Если данные недоступны, это может быть nan или 0.

Спасибо.

Изменить: изменить начальный фрейм данных, чтобы учитывать только одно значение по дате

1 Ответ

1 голос
/ 07 мая 2020

вы можете сделать это с помощью set_index с первым уровнем только time из столбца datetime и вторым уровнем date того же столбца. Затем unstack:

#sample dataframe
np.random.seed(1)
drange = pd.date_range('2019-01-01 09:30:00', freq='5T', periods=5)
df = pd.DataFrame({'datetime': drange.tolist() + (drange+pd.DateOffset(days=1)).tolist(),
                   'Value_1':np.random.randint(10, size=10),})
print (df)
             datetime  Value_1
0 2019-01-01 09:30:00        5
1 2019-01-01 09:35:00        8
2 2019-01-01 09:40:00        9
3 2019-01-01 09:45:00        5
4 2019-01-01 09:50:00        0
5 2019-01-02 09:30:00        0
6 2019-01-02 09:35:00        1
7 2019-01-02 09:40:00        7
8 2019-01-02 09:45:00        6
9 2019-01-02 09:50:00        9

# set_index and unstack
df_f = df.set_index([df['datetime'].dt.time, 
                     df['datetime'].dt.date])['Value_1']\
         .unstack()
print (df_f)
datetime  2019-01-01  2019-01-02
datetime                        
09:30:00           5           0
09:35:00           8           1
09:40:00           9           7
09:45:00           5           6
09:50:00           0           9

Затем, если вы хотите создать все 5 минут в индексе и каждый день в столбце, вы можете использовать reindex и ffill:

df_f = df_f.reindex(index=pd.date_range('2019-01-01 00:00:00', 
                                        freq='5T', periods=288).time, 
                    columns=pd.date_range('2019-01-01', 
                                          freq='D', periods=365).date)\
           .ffill()
...