Я хотел бы сравнить модели (множественная регрессия, LASSO, Ridge, GBM) с точки зрения важности переменных. Но я не уверен, что процедура правильная, потому что полученные значения не в одной шкале.
В множественной регрессии и значения GBM варьируются от 0 до 100 с использованием varImp из пакета caret , Вычисление этой статистики c отличается в каждом из методов.
Линейные модели: используется абсолютное значение t-statisti c для каждого параметра модели.
Boosted Trees: этот метод использует тот же подход, что и отдельное дерево, но суммирует важность каждой итерации повышения.
Хотя для LASSO и Ridge значения от 0,00 до 0,99, рассчитывается с помощью функции:
varImp <- function (object, lambda = NULL, ...) {
beta <- predict (object, s = lambda, type = "coef")
if (is.list (beta)) {
out <- do.call ("cbind", lapply (beta, function (x)
x [, 1])))
out <- as.data.frame (out)
} else
out <- data.frame (Overall = beta [, 1])
out <- abs (out [rownames (out)! = "(Intercept)",, drop = FALSE])
out
}
Получено здесь: Пакет каретки - gl mnet переменная важность
Я руководствовался другим Вопросы на форуме, но не смог понять, почему существует разница между весами. Как я могу сделать эти измерения сопоставимыми?