Случайный лес важности переменной - существует ли аналог rfpimp языка Python в R для группировки коллинеарных переменных - PullRequest
1 голос
/ 05 июля 2019

Доброе утро

Я использую важность перестановки в реализации случайного леса в R (randomForest, caret) для ранжирования переменных. Все переменные являются непрерывными, а результаты являются категориальными.

Чтобы разобраться с коллинеарными функциями, Теренс Парр, Джереми Ховард и другие обновили пакет rfpimp в Python, чтобы сгруппировать функции, которые сильно коррелированы. То есть они заявляют в https://explained.ai/rf-importance/#corr_collinear:

"Мы обновили пакет rfpimp (1.1 и выше), чтобы помочь понять графы важности при наличии коллинеарных переменных ... ... как мы обсуждалось, важность перестановочной функции вычисляется путем перестановки конкретный столбец и измерение снижения точности общего классификатор или регрессор. Конечно, функции, которые на самом деле коллинеарны должны быть переставлены вместе. Мы обновили importances (), чтобы вы могли передать либо список функций, таких как подмножество, или список списки, содержащие группы ... "

Я не смог найти ничего похожего в документации randomForest или функции экстрактора importance в пакете randomForest.

Есть ли аналоговое решение / пакет в R?

Спасибо.

...