Пожалуйста, вы можете мне помочь?У меня есть числовые и категориальные данные.И я должен прогнозировать зависимую переменную продолжения: «площадь».Максимальная корреляция с областью составляет 23%: это соотношение переменных «активная область» и «средняя площадь» с «областью».Корреляции других независимых переменных отрицательны или составляют от 0,1% до 8%.Предикторы данных различны, поэтому мне сложно визуализировать данные.Я использовал много моделей линейной регрессии.И я заметил, что лучшей моделью был регрессор XGBoost с точностью 53,9%.Вот корреляции независимых переменных с «областью» и моим кодом для XGBRegressor:
-0.039453
0.234475
-0.017780
-0.025187
0.012989
-0.016103
-0.013953
0.012090
-0.013553
-0.013016
-0.031440
-0.048611
0.236871
-0.079604
-0.104636
0.074033
0.087500
-0.194101
-0.023156
0.005547
-0.002937
-0.002621
-0.002850
-0.002867
-0.001232
0.030332
-0.002723
-0.099967
xgb = xgboost.XGBRegressor(n_estimators=248, learning_rate=0.0799999, gamma=0, subsample=1,
colsample_bytree=0.36, max_depth=8)
xgb.fit(X_train, y_train)
y_pred = xgb.predict(X_test)
r2_score(y_test, y_pred)
Зная, что я очистил и нормализовал все независимые данные, разве эти данные недостаточно коррелированы с областью?"или мне нужно заново параметризовать мою модель?