Я использую данные электронной коммерции, чтобы сделать какой-то прогноз, и мой прогноз очень неверный, и я не уверен, как это исправить. Вот так выглядят мои данные (по прогнозу у меня есть проблема):
Я подгоняю данные в модель, используя следующий код:
results = smf.ols('Q("Avg. Session Length") ~ Q("Yearly Amount Spent")', df).fit()
и распечатайте сводку:
print(results.summary())
OLS Regression Results
====================================================================================
Dep. Variable: Q("Avg. Session Length") R-squared: 0.126
Model: OLS Adj. R-squared: 0.124
Method: Least Squares F-statistic: 71.85
Date: Sat, 02 May 2020 Prob (F-statistic): 2.65e-16
Time: 14:39:54 Log-Likelihood: -671.54
No. Observations: 500 AIC: 1347.
Df Residuals: 498 BIC: 1356.
Df Model: 1
Covariance Type: nonrobust
============================================================================================
coef std err t P>|t| [0.025 0.975]
--------------------------------------------------------------------------------------------
Intercept 30.8344 0.265 116.342 0.000 30.314 31.355
Q("Yearly Amount Spent") 0.0044 0.001 8.477 0.000 0.003 0.005
==============================================================================
Omnibus: 1.122 Durbin-Watson: 2.104
Prob(Omnibus): 0.571 Jarque-Bera (JB): 1.137
Skew: -0.029 Prob(JB): 0.566
Kurtosis: 2.774 Cond. No. 3.23e+03
==============================================================================
df['Prediction'] = results.predict()
Я использовал предикат (), чтобы получить прогноз в кадре данных. Мне сказали, что это проблема масштабирования, и я искал, но не смог найти, как это масштабировать.