Как генерировать прогнозы на основе распределения данных с использованием Python - PullRequest
0 голосов
/ 25 апреля 2020

Мой фрейм данных в настоящее время выглядит следующим образом (давайте назовем это df_1).

date   var1 
1-1-01 0.1   
2-1-01 0.02 
3-1-01 3.00   
4-1-01 4.5   
5-1-01 0.9   
6-1-01 0.22   

var_1 нормально распределен. (см. фото ниже) enter image description here

У меня есть другой фрейм данных, который просто состоит из дат без значения var1 (давайте назовем это df_2):

date   var1 
1-2-01    
2-2-01 
3-2-01 
4-2-01 
5-2-01 
6-2-01 

Я просто хочу предсказания, основанные на случайном отрисовке из нормального распределения var1 в df_1. Как я могу сделать это в python?

PS: Не беспокойтесь о скачке (высоте) распределения в 0. Я знаю, что это самый высокий показатель. Представьте, что среднее значение распределения (а также медианы и моды) равно 0. Я хочу убедиться, что этот факт учитывается при прогнозировании.

1 Ответ

1 голос
/ 25 апреля 2020

Вы можете подогнать нормальное распределение к var_1, а затем извлечь из него образцы,

import scipy
import numpy as np

# fit to var_1
mu, std = scipy.stats.norm.fit(df['var_1'])

# generate data for var_2
var_2 = np.random.normal(mu, std, size=len(df['var_1']))

Но обратите внимание, что то, что вы спрашиваете, игнорирует даты, что означает, что вы игнорируете в любое время структура серии.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...