Я недавно пытаюсь обучить модель регрессии гребня ядра с 1700 точками данных.
Я выбираю параметр модели с помощью GridsearchCV:
param_grid = {"alpha": [1e0, 1e-1, 1e-2, 1e-3, 1e-4],
"gamma": np.logspace(-4, 4,10),
"kernel":['rbf','laplacian']}
kr = GridSearchCV(KernelRidge(), cv=10, param_grid=param_grid,scoring='r2')
Наилучшая оценка - R2 = 0,8, затем я использую эту модель для подбора полностью отдельного набора данных (не используется в процессе обучения)и результат, который я имею, выглядит следующим образом: рис.1
вы можете видеть, кроме большинства точек данных, подчиняющихся хорошей линейности, есть несколько точек выхода из линии.И еще одна вещь, на которую следует обратить внимание, это то, что все значения x этих выбросов значительно больше, чем другие точки.
Может ли какой-либо орган помочь мне объяснить эти выбросы?Что еще я могу сделать, чтобы улучшить свою модель?
Заранее спасибо!