Важность, которую вы визуализируете с помощью varImpPlot
, в случае использования , а не , имеет отдельный метод удаления не важных переменных.
Прежде всего, непрерывные переменные и категориальные переменные с большим количеством меток будут иметь большее значение. Это может вводить в заблуждение.
Во-вторых, коррелированные предикторы могут иметь низкую переменную важность. Иногда это противоположно тому, что вы хотите.
Также важность не говорит вам, как предикторы вместе связаны с ответом.
Я предлагаю использовать метод перестановки, при котором вы проверяете важность, переоценивая модель после перестановки одной переменной (например: sample (x4)), проверяйте, как изменяется производительность, сравнивая, например, mse
(до и после перестановки).
Простая идея заключается в том, что если переменная бесполезна, производительность не сильно изменится.
Наконец, вот некоторые полезные чтения.
Link1
Link2