Выполните расчет между строками с указателем даты и времени и поместите их в новые столбцы. - PullRequest
2 голосов
/ 24 октября 2019

У меня есть фрейм данных, созданный этим фрагментом кода:

import pandas as pd
import datetime as dt

datarange=pd.date_range('01-05-2018 00:00:00', periods=50, freq="4H")
range_series_1=pd.Series(np.random.randint(-5,3,size=50).astype(float), index=datarange)
range_series_2=pd.Series(np.random.randint(5,9,size=50).astype(float), index=datarange)
frame=pd.DataFrame({'value1':range_series_1, 'value2':range_series_2})
frame.index.name='datetime'

Мне нужны два дополнительных столбца (например, «столбец 1» и «столбец 2»), которые содержат следующие вычисления:

столбец 1 = значение1 [каждый день @ 4:00] - значение1 [тот же день @ 12:00] -> значение должно быть помещено в 00:00 дня

столбец 2 =значение1 [каждый день @ 4:00] - значение2 [тот же день @ 12:00] -> значение должно быть помещено в 00:00 дня

Остальные строки в столбце 1 и столбце2 должно быть либо NaN, либо 0.

Любая панда, как это сделать, пожалуйста?

ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ, чтобы уточнить: У меня может быть кадр данных, который не будетиметь даты и время, представленные здесь таким строгим образом, поэтому pd.shift() не может быть глобальным решением.

Примером желаемого результата является следующий (с пояснениями, которые будут более понятными) :

                     value1  value2  column1   column2
datetime                           
2018-01-05 00:00:00    -3.0     8.0      2.0      -8.0  #2.0=-3.0-(-5.0) and -8.0=-3.0-(5.0)   
2018-01-05 04:00:00    -3.0     8.0      NaN       NaN
2018-01-05 08:00:00     1.0     8.0      NaN       NaN
2018-01-05 12:00:00    -5.0     5.0      NaN       NaN
2018-01-05 16:00:00     0.0     5.0      NaN       NaN
2018-01-05 20:00:00    -4.0     8.0      NaN       NaN
2018-01-06 00:00:00    -5.0     8.0     -1.0     -11.0  #-1.0=-5.0-(-4.0) and -11.0=-5.0-(6.0)
2018-01-06 04:00:00    -5.0     5.0      NaN       NaN
2018-01-06 08:00:00    -2.0     5.0      NaN       NaN
2018-01-06 12:00:00    -4.0     6.0      NaN       NaN
2018-01-06 16:00:00    -1.0     6.0      NaN       NaN
2018-01-06 20:00:00     1.0     7.0      NaN       NaN
2018-01-07 00:00:00    -1.0     5.0      4.0      -4.0  #4.0=2.0-(-2.0) and -4.0=2.0-(6.0)
2018-01-07 04:00:00     2.0     8.0      NaN       NaN
2018-01-07 08:00:00    -1.0     8.0      NaN       NaN
2018-01-07 12:00:00    -2.0     6.0      NaN       NaN
2018-01-07 16:00:00     2.0     6.0      NaN       NaN
2018-01-07 20:00:00    -4.0     6.0      NaN       NaN

Я пытаюсь выяснить, может ли этот ответ помочь мне, но я пока не очень хорошо разбираюсь в итерациях по строкам ( Updсъел кадр данных в пандах, перебирая строку за строкой ).

Ответы [ 2 ]

1 голос
/ 25 октября 2019

Использование:

from datetime import time

np.random.seed(2019)

datarange=pd.date_range('01-05-2018 00:00:00', periods=50, freq="4H")
range_series_1=pd.Series(np.random.randint(-5,3,size=50).astype(float), index=datarange)
range_series_2=pd.Series(np.random.randint(5,9,size=50).astype(float), index=datarange)
frame=pd.DataFrame({'value1':range_series_1, 'value2':range_series_2})
frame.index.name='datetime'
#print (frame)

Идея состоит в том, чтобы сравнить времена для индекса и использовать DatetimeIndex.floor для времен удаления (создано по умолчанию 00:00:00) для Series и DataFrame:

s = frame.loc[frame.index.time == time(4, 0), 'value1']
s.index = s.index.floor('d')
print (s)
datetime
2018-01-05   -3.0
2018-01-06   -5.0
2018-01-07   -5.0
2018-01-08   -5.0
2018-01-09   -1.0
2018-01-10   -4.0
2018-01-11   -2.0
2018-01-12    0.0
2018-01-13    1.0
Name: value1, dtype: float64

df1 = frame.loc[frame.index.time == time(12, 0), ['value1', 'value2']]
df1.index = df1.index.floor('d')
print (df1)
            value1  value2
datetime                  
2018-01-05     0.0     6.0
2018-01-06     2.0     8.0
2018-01-07    -5.0     7.0
2018-01-08     2.0     7.0
2018-01-09    -1.0     5.0
2018-01-10     1.0     7.0
2018-01-11     2.0     7.0
2018-01-12    -2.0     6.0

Затем вычтите с правой стороны DataFrame.rsub, добавьте некоторый префикс к новым столбцам и присоедините к оригиналу:

frame = frame.join(df1.rsub(s, axis=0).add_prefix('new_'))
print (frame.head(15))
                     value1  value2  new_value1  new_value2
datetime                                                   
2018-01-05 00:00:00    -5.0     6.0        -3.0        -9.0
2018-01-05 04:00:00    -3.0     5.0         NaN         NaN
2018-01-05 08:00:00     2.0     7.0         NaN         NaN
2018-01-05 12:00:00     0.0     6.0         NaN         NaN
2018-01-05 16:00:00    -5.0     7.0         NaN         NaN
2018-01-05 20:00:00     1.0     6.0         NaN         NaN
2018-01-06 00:00:00     1.0     5.0        -7.0       -13.0
2018-01-06 04:00:00    -5.0     8.0         NaN         NaN
2018-01-06 08:00:00     0.0     6.0         NaN         NaN
2018-01-06 12:00:00     2.0     8.0         NaN         NaN
2018-01-06 16:00:00    -1.0     8.0         NaN         NaN
2018-01-06 20:00:00    -3.0     8.0         NaN         NaN
2018-01-07 00:00:00    -5.0     5.0         0.0       -12.0
2018-01-07 04:00:00    -5.0     8.0         NaN         NaN
2018-01-07 08:00:00     2.0     5.0         NaN         NaN
1 голос
/ 24 октября 2019

IIUC, вы хотите сместить по времени:

shifted = frame.shift(-8, freq='H')

frame['col1'] = frame['value1'] - shifted['value1']
frame['col2'] = frame['value1'] - shifted['value2']

Выход (напор):

                     value1  value2  col1  col2
datetime                                       
2018-01-05 00:00:00    -3.0     8.0  -2.0  -8.0
2018-01-05 04:00:00     0.0     7.0  -2.0  -5.0
2018-01-05 08:00:00    -1.0     5.0  -1.0  -8.0
2018-01-05 12:00:00     2.0     5.0   3.0  -5.0
2018-01-05 16:00:00     0.0     7.0   4.0  -6.0
...