Я использую регрессию гребня и поэтому хочу стандартизировать свои переменные. Тем не менее, у меня есть смесь вещественных переменных и манекенов. При вызове cv.glmnet
мы можем передать аргументы в функцию glmnet
, одним из которых является standardize
.
Per этот вопрос , я против стандартизации манекенов, потому что она проигрывает некоторые из интерпретируемых коэффициентов. Это приводит меня к следующим связанным вопросам:
1) есть ли способ указать только конкретные столбцы c для стандартизации в cv.glmnet
?
2) правильно ли стандартизирует cv.glmnet
для перекрестной проверки kfold, то есть стандартизировать тренировочную складку, а затем сделать то же самое для тестовой складки, но с использованием центра и шкалы тренировочной складки?
3) После интерпретации коэффициентов я готов их отцентрировать. Тем не менее, есть ли какая-либо другая причина (например: численная стабильность), чтобы не центрировать фиктивные переменные?
Спасибо