У меня есть крупномасштабный набор данных о тысячах белков с сотнями параметров об их различных свойствах.
Я хотел бы построить модель, с помощью которой я могу решить, какой из этих параметров влияет на агрегациюсклонность белков, но параметры имеют очень разные масштабы (например, молекулярная масса в тысячах, доля каждой аминокислоты на длину от 0,01 до 0,2).
Я использовал эластичную сеть (glmnet пакет R) дляпостроить модель логистической регрессии и использовать standardize = T для учета изменчивости в масштабе.
Затем я использую функцию coef()
, чтобы получить коэффициенты, и они кажутся важными, но, насколько я могу судить, ониявляются коэффициентами для нетрансформированных данных.
Я хотел бы сравнить влияние различных параметров.
Мой первый вопрос заключается в том, существует ли способ ранжировать параметры по размеру их коэффициентов какмера их важности (имеет ли это смысл), ивторой будет о том, как на самом деле добиться этого.
Код следующий:
glmnetA <- cv.glmnet(modelMatrix,FoldNoFoldResponse,alpha = 0.5,family="binomial",type.measure="auc",nfolds=10,standardize = T, parallel = TRUE)
Coefficients <- coef(glmnetA)