График доверительного интервала с многофакторным регрессионным анализом - PullRequest
0 голосов
/ 25 апреля 2019

Я делаю многомерный регрессионный анализ с 4 независимыми переменными, используя statsmodels в python, однако я смог подогнать данные для получения предсказанных значений и ci / pi, однако, когда я пытаюсь построить подгонянные значения и ci / pi против одной из независимых переменных, я все перепутал plot . Я хочу построить диаграмму, которая показывает подгонянные значения и ci / pi равномерно для всех точек данных, как в этой проблеме .

Как указывалось в приведенной выше проблеме, я пытался отсортировать значения ci / pi по значениям одной независимой переменной, не работает. Мой код:

import pandas as pd

import numpy as np

import statsmodels.api as sm

import matplotlib.pyplot as plt

from statsmodels.stats.outliers_influence import summary_table


#read data
data = pd.read_csv("/../../M02_rawObs_total500.csv")

#drop colomn ship_name
data=data.drop(columns='ship_name')
#drop NaN values
data=data.dropna()

#build a model
indVar=sm.add_constant(data[['ship_slp','distance','UU','VV']])

olsMod = sm.OLS.from_formula("cyclone_slp ~ ship_slp + distance + UU + VV", data)
olsRes = olsMod.fit()

ypred = olsRes.predict(indVar)

st, dat, ss2 = summary_table(olsRes, alpha=0.05)

fittedvalues = dat[:, 2]
predict_mean_se  = dat[:, 3]
predict_mean_ci_low, predict_mean_ci_upp = dat[:, 4:6].T
predict_ci_low, predict_ci_upp = dat[:, 6:8].T

plt.plot(data['ship_slp'], data['cyclone_slp'], 'o')
plt.plot(data['ship_slp'], fittedvalues, '-', lw=2)

plt.plot(data['ship_slp'], predict_ci_low, 'r--', lw=2)
plt.plot(data['ship_slp'], predict_ci_upp, 'r--', lw=2)
plt.show()

Ну, моя проблема в том, что все примеры здесь и в других местах имеют дело с одной независимой и зависимой переменной. Я действительно сбит с толку, если это правильный подход для многомерной регрессии, потому что идентичные значения для одного независимого var все еще могут иметь разные подогнанные значения / ci / pi в зависимости от значений от других независимых переменных.

Кроме того, могу ли я оценить вероятность получения определенного значения прогнозируемой переменной с учетом набора значений независимых переменных, а не только в пределах 95% ДИ. Данные здесь и спасибо за вашу помощь!

...