Ответы на ваши вопросы:
i) Lasso
постепенно уменьшает коэффициенты. Вы можете найти хорошую картинку в некоторых книгах, написанных Робертом Тибширани, человеком, стоящим за Лассо / Хребтом, где вы увидите, как некоторые коэффициенты постепенно падают до нуля с ростом коэффициента регуляризации (вы можете выполнить такой эксперимент самостоятельно). Тот факт, что модель все еще сохраняет оба, может означать две вещи: либо модель считает оба важных, либо не хватает регуляризации, чтобы убить одного из них.
ii) Вы правы, вы идете с Lasso
с L1
регуляризацией. Это C
параметр. Способ кодирования в sklearn
: чем меньше C
, тем выше параметр регуляризации (обратный). Хотя в машинном обучении ваша задача состоит не в том, чтобы полностью исключить коллинеарность («убить F1 или F2» в вашей комнате), а в том, чтобы найти модель (или набор параметров, если вы sh), которые будут лучше обобщать. Это делается через настройку модели через CV. Предупреждение: более высокая регуляризация означает больше недооценки.
Я бы добавил, что коллинеарность несколько опасна для линейной регрессии, поскольку она может привести к нестабильности модели (различные коэффициенты в разных подвыборках). Итак, с помощью линейной регрессии вы можете sh проверить это тоже.