В «Приближении жадных функций» Фридмана в «Летописи статистики», 2001 , относительная важность входных переменных описана в разделе 8.1.Уравнение 44 (из Breiman, Friedman, Olshen & Stone, 1983) показывает, что относительная важность объекта в дереве - это общее (т. Е. Сумма) улучшение квадратичной ошибки по всем узлам, разделяющимся на этот объект - не нормированным или пропорциональным - с помощью уравнения 45вычисление относительной важности функции для GBM путем взятия среднего по всем деревьям суммы (опять же, не среднего по пропорциям).
Эта сумма находится в коде здесь
Я почти уверен, что функция, которая используется редко, но когда она используется, важно, чтобы в этом методе не было высокого ранга.Текущее определение - что-то вроде общей полезности, но я думаю, что хочу среднее.Это сняло бы вопрос о том, сколько раз оно использовалось.Например, если была двоичная функция, которая отличалась от нуля только 1 на миллион строк, но когда это было, это оказало огромное влияние на прогноз.Изменение суммы в приведенной выше строке кода на среднее значение выделит такие функции.
Это что-то, что сделано?Эффект, о котором я беспокоюсь, уже сбалансирован, так как важность функции в узле взвешивается по количеству выборок в этом узле?Есть ли лучший способ справиться с редкостью и важностью функций?
Цель такого подхода к пониманию важности признаков состоит в том, чтобы убедиться, что он не исключает признаки, которые в целом не важны, но имеют решающее значение в нескольких редких случаях выбросов.При выборе объектов легко оправдать отбрасывание таких объектов при рассмотрении совокупных показателей.