Я сравнивал различные регрессионные модели от sklearn. При этом меня смутило значение оценки модели, которое я получил.Ниже в коде вы можете видеть, что я использовал как линейную регрессию, так и регрессию хребта, но разница в значениях баллов для набора тренировочных и тестовых данных сильно варьируется.
using Linear Regression
from sklearn.linear_model import LinearRegression as lr
model = lr()
model.fit(X_train, y_train)
model.predict(X_test)
print("LINEAR REGRESSION")
print("Training Score", end = "\t")
print(model.score(X_train, y_train))
print("Test Score", end = "\t")
print(model.score(X_test, y_test))
------------------------------------------------------------
O/P
LINEAR REGRESSION
Training Score 0.7147120015665793
Test Score 0.4242120003778227
Using Ridge Regression
from sklearn.linear_model import Ridge as r
model = r(alpha = 20).fit(X_train, y_train)
model.predict(X_test)
print("RIDGE REGRESSION")
print("Training Score", end = "\t")
print(model.score(X_train, y_train))
print("Test Score", end = "\t")
print(model.score(X_test, y_test))
-----------------------------------------------------------
O/P
RIDGE REGRESSION
Training Score 0.4991610348613835
Test Score 0.32642156452579363
Мой вопрос:меньшая разница между оценочными значениями обучающего и тестового набора данных означает, что моя модель является Обобщенной и подходит в равной степени как для теста, так и для данных Поезда (не переоснащение), или это означает что-то еще.Если это означает что-то еще, пожалуйста, объясните.
И как значение "альфа" влияет на модель регрессии гребня?Я новичок, поэтому, пожалуйста, объясните все как можно проще.
Спасибо.