Интуитивный способ думать о смещении подобен термину b в линейном уравнении. Который определяется как:
y = mx + b
Термин m является наклоном, а b указывает, где линия пересекается с осью y. Если вы увеличите или уменьшите этот член, линия будет двигаться вверх и вниз по оси Y.
Нейронная сеть создает гиперплоскость для разделения кластеров, поэтому смещение будет перемещать ее вверх и вниз во время обучения, пока оно не сойдет к минимуму и, как мы надеемся, найдет подходящее соответствие для ваших тренировочных образцов.
Момент, как упоминалось ранее, уменьшит колебания во время градиентного спуска.
Это увеличит размер шага в начале тренировки и уменьшит его к концу. Вы можете думать об этом, как о больших шагах в направлении отрицательного градиента, к минимумам, и о меньших шагах по мере приближения к нему. Это имеет несколько преимуществ:
- Увеличивает скорость тренировки.
- У вас ниже риск превышения минимума, чтобы он никогда не сходился, особенно при высоких скоростях обучения.
- Возможное превышение локальных минимумов.