Рассчитайте скользящую регрессию в Pandas и сохраните наклон - PullRequest
1 голос
/ 22 октября 2019

У меня есть данные временных рядов, и я хочу рассчитать групповую скользящую регрессию последних n дней в Pandas и сохранить наклон этой регрессии в новом столбце.

Я искал старые вопросы, и онилибо не получил ответа, либо использовал OLS Pandas, который, как я слышал, устарел.

Я подумал, что, возможно, смогу использовать df.rolling.apply() в сочетании с функцией scipy.stats.linregress, но не могу понятьЛямбда-функция, которая делает то, что я хочу.

Вот пример кода

import numpy as np
import pandas as pd
from scipy.stats import linregress

# make sample data
days = 21
groups = ['A', 'B', 'C']
data_days = list(range(days)) * len(groups)
values = np.random.rand(days*len(groups))

df = pd.DataFrame(data=zip(sorted(groups*days), data_days, values), 
                  columns=['group', 'day', 'value'])

# calculate slope of regression of last 7 days
days_back = 7

grouped_data = df.groupby('group')
for g, data in grouped_data:
    window = data.rolling(window=days_back,
                          min_periods=days_back)

Мне нужен новый столбец под названием «Наклон», в котором, начиная с 7-го дня, наклонсохраняется линейная регрессия за последние 7 дней.

1 Ответ

0 голосов
/ 22 октября 2019

lol кажется, что stackoverflow как-то дал мне возможность самому разобраться в этом ...

У меня были некоторые неправильные предположения, во-первых, мне не нужно проходить по группам, а во-вторых, я этого не делалдействительно понимаю, как rolling.apply работал ...

Так вот (на первый взгляд) рабочий код. Я использовал функцию linregress из scipy.stats:

import numpy as np
import pandas as pd
from scipy.stats import linregress

# create random sample data
days = 14
groups = ['A', 'B', 'C']
data_days = list(range(days)) * len(groups)
values = np.random.rand(days*len(groups))

df = pd.DataFrame(data=zip(sorted(groups*days), data_days, values), 
                  columns=['group', 'day', 'value'])

def get_slope(array):
    y = np.array(array)
    x = np.arange(len(y))
    slope, intercept, r_value, p_value, std_err = linregress(x,y)
    return slope


# calculate slope of regression of last 7 days
days_back = 3

df['rolling_slope'] = df.groupby('group')['value'].rolling(window=days_back,
                               min_periods=days_back).apply(get_slope, raw=False).reset_index(0, drop=True)

print(df)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...