Моделирование Монте-Карло для нескольких записей в Python - PullRequest
0 голосов
/ 26 сентября 2018

Я работаю над созданием симуляции Монте-Карло, которая будет проходить через каждый идентификатор моего информационного кадра и выводить их соответствующие средние значения и стандартные отклонения.Я смог написать код, чтобы получить его для любого идентификатора, но не перебирать весь список идентификаторов в моем фрейме данных.Таким образом, я мог бы написать каждую строку отдельно, но мне нужен код для перебора любого изменяемого списка идентификаторов.

Здесь я попытался создать список списков, в котором каждый набор наблюдений Монте-Карло может бытьхранится (а среднее и стандартное можно взять из).Я не верю, что это будет самый эффективный способ кодирования этого, но это то, что я знаю на данный момент.Есть ли способ запустить симуляцию Монте-Карло на каждом из идентификаторов (без конкретного вызова каждого)?Мне нужно иметь возможность добавлять и удалять различные идентификаторы и соответствующие данные из списка.

Это продолжение: Использование Монте-Карло для прогнозирования доходов в Python

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np


ID = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]
Revenue = [1000, 1200, 1300, 100 ,500, 0, 800, 950, 4321, 800, 1000, 1200, 1300, 100 ,500, 0, 800, 950, 4321, 800]
odds = [0.5, 0.6, 0.33, 0.1, 0.9, 0.87, 0.37, 0.55, 0.97, 0.09, 0.5, 0.6, 0.33, 0.1, 0.9, 0.87, 0.37, 0.55, 0.97, 0.09]

d = {'ID': ID, 'Revenue': Revenue, 'Odds': odds}
df = pd.DataFrame(d)
df['Expected Value'] = df['Revenue']*df['Odds']

print(df)

num_samples = 100
df['Random Number'] = np.random.rand(len(df))

def monte_carlo_array(df):
    for _ in range(len(df)):
        yield []

mc_arrays = list(monte_carlo_array(df))

# Fill each list with 100 observations (no filtering necessary)
id_1 = []
filter_1 = (df['ID'] == 5)

for _ in range(num_samples):
    sample = df['Revenue'] * np.where(np.random.rand(len(df)) < \
                          df['Odds'], 1, 0)
    for l in monte_carlo_array(df):
        for i in l:
        mc_arrays[i].append(sample.sum())
    id_1.append(sample.loc[filter_1].sum())


# Plot simulation results.
n_bins = 10
plt.hist([id_1], bins=n_bins, label=["ID: 1"])
plt.legend()
plt.title("{} simulations of revenue".format(num_samples))

print(mc_arrays)

df['Monte Carlo Mean'] = np.mean(mc_arrays[0])
print(df['Monte Carlo Mean'])

1 Ответ

0 голосов
/ 26 сентября 2018

IIUC, это то, что вы собираетесь:

  • Для каждой строки (которая представляет ID), вы хотите в общей сложности num_samples моделирования Монте-Карло того, является ли эта строкадостигает своего Revenue.
  • Способ, которым вы определяете, достигает ли данный моделируемый экземпляр свой Revenue, заключается в сравнении случайно нарисованного значения в [0,1] с Odds для этой строки (стандартным способом Монте-Карло).
  • Вы хотите знать среднее и стандартное отклонение Revenue для каждой строки во всех выборках.

Если это так, вы можете сделать это, используя функцию выборки биномиального распределения вместо рисования из униформы, а затем фильтрации на основе Odds.Я опубликую решение с использованием этого подхода в конце этого ответа.

Но так как вы начали с подхода Uniform-Draw: я бы рекомендовал сначала сделать матрицу выборки s_draws из n_rows = len(df) на num_samples (иначе n_draws в моем коде ниже),Затем примените проверку Odds ко всем образцам в каждом ряду s_draws.Затем умножьте на Revenue и возьмите среднее значение и sd для каждой строки.Например:

Сначала нарисуйте матрицу выборки:

np.random.seed(42)

n_rows = len(df)
n_draws = 5
s_draws = pd.DataFrame(np.random.rand(n_rows, n_draws))

# the matrix of random values between [0,1]
# note: only showing the first 3 rows for brevity
s_draws
           0         1         2         3         4
0   0.374540  0.950714  0.731994  0.598658  0.156019
1   0.155995  0.058084  0.866176  0.601115  0.708073
2   0.020584  0.969910  0.832443  0.212339  0.181825
...

Теперь выясните, какие выборочные экземпляры "достигли" цели Revenue:

s_rev = s_draws.apply(lambda col: col.lt(df.Odds) * df.Revenue)

# the matrix of sampled revenue
s_rev
       0     1     2     3     4
0   1000     0     0     0  1000
1   1200  1200     0     0     0
2   1300     0     0  1300  1300
...

Наконец, вычислить итоговую статистику для каждой строки* был повторен в нескольких строках в df.В этом случае вы можете использовать groupby, а затем получить сводную статистику.Но в вашем примере ID никогда не повторяется, поэтому я оставлю ответ как есть.

...