API XGBoost имеет две точки данных, которые он предоставляет в отношении функций
- Важность функции , к которой может обращаться xgb_bst.get_score (priority_type = 'gain') *
Документы объясняют это как: Получить важность каждой функции.Тип важности может быть определен как: 'усиление': среднее усиление по всем разделениям, в которых используется функция.
Вклад функций , к которым можно получить доступ через feature_contribs = xgb_bst.predict (dtest, pred_contribs = True)
Для каждой документации выходные данные будут представлять собой матрицу размера (например,nfeats + 1) с каждой записью, указывающей вклады функций (значения SHAP) для этого прогноза.Сумма всех вкладов признаков равна необработанному значению маржи в прогнозе.
Мой вопрос здесь такой:
- Какова корреляция между ними, поскольку из того, что ясм., что функция с максимальной важностью (высокий коэффициент усиления) не обязательно является основным источником (положительным) для большинства отдельных данных и наоборот?
- Интуитивно, как я могу интерпретировать важность функции по сравнению с компонентами?Чем они отличаются?