Stochastic Gradient Descent выполняет итерацию в пакетах обучающих данных путем вычисления градиента ошибок на выходных узлах и обратного распространения этих ошибок по сети со скоростью обучения <1. Это функция частичной ошибки, собранная только попакетное подмножество, а не весь тренировочный набор.Шаг в пространстве веса, вероятно, уменьшит ошибку в потере партии (фактически гарантированно, если скорость обучения достаточно мала), но это не означает, что это уменьшит функцию потери в течение всей тренировкизадавать.Нет никаких гарантий, что один шаг в пространстве веса улучшит совокупную потерю во всем тренировочном наборе - это полностью зависит от данных.</p>
Абсолютно возможно, что один шаг в пространстве весов улучшит метрику потери партии за счет общей ошибки (эффективно перегоняя подмножество данных), но когда мы повторим это для всей партииобучающие образцы будут стремиться двигаться в правильном направлении в отношении совокупной ошибки.Однако это зависит от скорости обучения - если скорость обучения слишком высока, сеть может продолжать «подпрыгивать» в функции потерь без постепенной конвергенции.Если оно слишком низкое, то оно может быть очень медленным, чтобы сходиться.
(рекомендуется использовать оптимизатор, например Адам, который будет динамически адаптировать скорость обучения, чтобы управлять этим компромиссом для вас).