Для SGD величина изменения параметров кратна скорости обучения и градиенту значений параметров относительно потери.
θ =θ - α ∇ θ E [J (θ)]
Каждый его шаг будет идти в неоптимальном направлении (т. е. слегка неправильно), поскольку оптимизатор обычно имеет тольковидел некоторые значения.В начале обучения вы находитесь относительно оптимального решения, поэтому градиент ∇ θ E [J (θ)] большой, поэтому каждый неоптимальный шаг оказывает большое влияние на ваши потери и точность.
Со временем, когда вы (будем надеяться) приблизитесь к оптимальному решению, градиент будет меньше, поэтому шаги станут меньше, а это означает, что влияние незначительных ошибок уменьшается.Меньшие ошибки на каждом шаге уменьшают ваши потери более плавно, что уменьшает колебания.