Я делаю многомерный регрессионный анализ с 4 независимыми переменными, используя statsmodels в python, однако я смог подогнать данные для получения предсказанных значений и ci / pi, однако, когда я пытаюсь построить подгонянные значения и ci / pi против одной из независимых переменных, я все перепутал plot . Я хочу построить диаграмму, которая показывает подгонянные значения и ci / pi равномерно для всех точек данных, как в этой проблеме .
Как указывалось в приведенной выше проблеме, я пытался отсортировать значения ci / pi по значениям одной независимой переменной, не работает. Мой код:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
from statsmodels.stats.outliers_influence import summary_table
#read data
data = pd.read_csv("/../../M02_rawObs_total500.csv")
#drop colomn ship_name
data=data.drop(columns='ship_name')
#drop NaN values
data=data.dropna()
#build a model
indVar=sm.add_constant(data[['ship_slp','distance','UU','VV']])
olsMod = sm.OLS.from_formula("cyclone_slp ~ ship_slp + distance + UU + VV", data)
olsRes = olsMod.fit()
ypred = olsRes.predict(indVar)
st, dat, ss2 = summary_table(olsRes, alpha=0.05)
fittedvalues = dat[:, 2]
predict_mean_se = dat[:, 3]
predict_mean_ci_low, predict_mean_ci_upp = dat[:, 4:6].T
predict_ci_low, predict_ci_upp = dat[:, 6:8].T
plt.plot(data['ship_slp'], data['cyclone_slp'], 'o')
plt.plot(data['ship_slp'], fittedvalues, '-', lw=2)
plt.plot(data['ship_slp'], predict_ci_low, 'r--', lw=2)
plt.plot(data['ship_slp'], predict_ci_upp, 'r--', lw=2)
plt.show()
Ну, моя проблема в том, что все примеры здесь и в других местах имеют дело с одной независимой и зависимой переменной. Я действительно сбит с толку, если это правильный подход для многомерной регрессии, потому что идентичные значения для одного независимого var все еще могут иметь разные подогнанные значения / ci / pi в зависимости от значений от других независимых переменных.
Кроме того, могу ли я оценить вероятность получения определенного значения прогнозируемой переменной с учетом набора значений независимых переменных, а не только в пределах 95% ДИ.
Данные здесь и спасибо за вашу помощь!