Theta0 относится к смещению.
Смещение проявляется, когда мы хотим, чтобы границы наших решений были должным образом разделены. просто рассмотрим пример
Y1 = w1 * X, а затем Y2 = w2 * X
когда значения X приближаются к нулю, может быть случай, когда их непросто разделить, здесь возникает смещение в роли.
Y1 = w1 * X + b1 и Y2 = w2 * X + b2
теперь, благодаря обучению, границы принятия решений будут все время ясны.
Давайте рассмотрим, почему мы используем регуляризацию сейчас.
Так что мы не перегружаемся и не сглаживаем кривую. Как вы можете видеть уравнение, его наклоны w1 и w2, которые необходимо сгладить, смещение - это просто пересечения сегрегации. Так что нет смысла использовать их в регуляризации.
Хотя мы можем использовать это, в случае нейронных сетей это не будет иметь никакого значения. Но мы можем столкнуться с проблемами снижения значения смещения настолько, что это может привести к путанице в данных. Таким образом, лучше не использовать смещение в регуляризации.
Надеюсь, это ответит на ваш вопрос.
Первоначально опубликовано: https://medium.com/@shrutijadon10104776/why-we-dont-use-bias-in-regularization-5a86905dfcd6