Я оптимизировал гиперпараметры XGBClassifier и хотел бы определить, какой из них оказал наибольшее влияние на оценку классификации.
Допустим, я сделал 100 шагов оптимизации. Для каждого из этих шагов я сохранил выбранные значения гиперпараметров для этого шага и потери классификации. (оценка по классификации = 1 - потеря) Итак, данные, которые у меня есть, выглядят примерно так:
step loss n_estimators ... learning_rate
0 0.366406 2100 ... 0.15
1 0.367031 2700 ... 0.15
2 0.360156 2000 ... 0.09
3 0.367500 1600 ... 0.09
4 0.374062 1900 ... 0.20
.. ... ... ... ...
95 0.363125 3900 ... 0.03
96 0.361875 3400 ... 0.05
97 0.362656 4000 ... 0.06
98 0.363750 3300 ... 0.04
99 0.366875 2400 ... 0.08
Имеет ли смысл использовать коэффициент корреляции Пирсона для измерения корреляции столбца "потери" с каждым из остальные столбцы отдельно, чтобы измерить влияние этого признака на оценку классификации (потери)?
Я пробовал вышеупомянутый метод, и вот результат, который я получил:
learning_rate: 0.5690420509282961
max_depth: 0.4298504377519774
subsample: 0.3587112803075305
n_estimators: 0.28500163479726737
alpha: 0.25623534191234265
colsample_bytree: 0.19256754982036417
gamma: 0.19136781803969316
min_child_weight: 0.09997662687854772
lambda: 0.0997191785954184
Итак Можно ли с уверенностью сказать, что функция «learning_rate», значения которой наиболее коррелируют со значениями потерь, оказала наибольшее влияние на оценку классификации? Есть ли лучший способ сделать это? Любая помощь будет высоко ценится.