Хребетная регрессия минимизирует целевую функцию: ||y - Xw||^2_2 + alpha * ||w||^2_2
Эта модель решает регрессионную модель, где функция потерь является линейной функцией наименьших квадратов, а регуляризация задается l2-нормой. Проще говоря, alpha
является параметром того, насколько регрессия гребня пытается предотвратить переобучение !
Допустим, у вас есть три параметра W = [w1, w2, w3]
. В ситуации перегрузки функция потерь может соответствовать модели с W=[0.95, 0.001, 0.0004]
, что означает, что она сильно смещена к первому параметру. Тем не менее, alpha * ||w||^2_2
увеличивает функцию потерь в этих случаях и пытается сохранить все параметры в некотором роде границ, чтобы предотвратить переоснащение. Например, с регуляризатором W
может быть W=[0.5, 0.2, 0.33]
. Увеличивая alpha
, вы толкаете регрессию Риджа, чтобы быть более устойчивой к переоснащению, но, возможно, получаете большую ошибку обучения.