Я имею дело с набором данных, содержащим около 1500 объектов, без информации о значении или способе их получения. Задача состоит в том, чтобы сделать регрессию целевого значения.
Я хотел бы уменьшить количество измерений на основе важности функций на основе дерева.
Поэтому у меня есть несколько вопросов:
- Я где-то читал (больше не могу найти источник ...), что алгоритм ExtraTrees лучше всего подходит для вычисления важности функций. Вы можете подтвердить это утверждение?
- Как вычисляется важность функции для RadomForest, ExtraTrees и GradientBoosting?
- Насколько важна оптимизация производительности алгоритма, чтобы иметь уверенность в важности функции?
Спасибо за вашу помощь