Я использую регрессионную модель с использованием Random Forest и хотел бы выбрать набор экономных предикторов, которые все еще могут достичь хорошей производительности модели. Для этого я запустил процедуру выбора модели, которая состоит из двух этапов:
Сначала я запускаю полную модель и ранжирую переменные в соответствии с важностью (я измеряю важность как снижение точности). Во-вторых, я беру самый важный предиктор из полной модели и постепенно добавляю все остальные, по одному за раз. Поступая так, я вижу, какой предиктор лучше всего улучшает результаты моделирования, основываясь на улучшении объяснения дисперсии, создавая тем самым новую экономную модель. Я итеративно повторяю эту процедуру, пока не будет достигнуто улучшение дисперсии, объясняемой более чем на 2%. Я читал, что большое количество переменных методов выбора RF основано на уменьшении ошибки OOB в большей степени, чем на проверке улучшения дисперсии, поэтому я не уверен, выбираю ли я подходящий метод. Может ли кто-то дать свое мнение? Спасибо