Обычный метод наименьших квадратов и как масштабировать x и y с помощью Statsmodels? - PullRequest
0 голосов
/ 02 мая 2020

Я использую данные электронной коммерции, чтобы сделать какой-то прогноз, и мой прогноз очень неверный, и я не уверен, как это исправить. Вот так выглядят мои данные (по прогнозу у меня есть проблема): enter image description here

Я подгоняю данные в модель, используя следующий код:

results = smf.ols('Q("Avg. Session Length") ~ Q("Yearly Amount Spent")', df).fit()

и распечатайте сводку:

print(results.summary())
                              OLS Regression Results                               
====================================================================================
Dep. Variable:     Q("Avg. Session Length")   R-squared:                       0.126
Model:                                  OLS   Adj. R-squared:                  0.124
Method:                       Least Squares   F-statistic:                     71.85
Date:                      Sat, 02 May 2020   Prob (F-statistic):           2.65e-16
Time:                              14:39:54   Log-Likelihood:                -671.54
No. Observations:                       500   AIC:                             1347.
Df Residuals:                           498   BIC:                             1356.
Df Model:                                 1                                         
Covariance Type:                  nonrobust                                         
============================================================================================
                               coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------------------
Intercept                   30.8344      0.265    116.342      0.000      30.314      31.355
Q("Yearly Amount Spent")     0.0044      0.001      8.477      0.000       0.003       0.005
==============================================================================
Omnibus:                        1.122   Durbin-Watson:                   2.104
Prob(Omnibus):                  0.571   Jarque-Bera (JB):                1.137
Skew:                          -0.029   Prob(JB):                        0.566
Kurtosis:                       2.774   Cond. No.                     3.23e+03
==============================================================================

df['Prediction'] = results.predict()

Я использовал предикат (), чтобы получить прогноз в кадре данных. Мне сказали, что это проблема масштабирования, и я искал, но не смог найти, как это масштабировать.

...