Я провел линейную регрессию на моих данных - (2 категориальные и 6 числовых переменных), используя модель линейной регрессии Sci-Kit Learn, и я нашел ниже результаты регрессии.
regressor = LinearRegression()
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)
r2_score(y_test, y_pred)
--> 0.8399
np.sqrt(mean_squared_error(y_test, y_pred))
--> 149.066
Когда я запускаю одни и те же данные с использованием statsmodels, результаты совершенно разные, Rsquared сходит с ума и значение p равно 0,000.
Что это значит, что яя делаю не так?
import statsmodels.formula.api as sm
#X = np.append(arr = np.ones((X.shape[0], 1)).astype(int), values = X, axis = 1)
X_opt = X[:, [0,1,2,3,4,5,6,7,8]]
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()