Первый градиентный спуск - это только один из методов для обратного распространения, отличающийся от того, что ваше определение является правильным.Мы просто сравниваем сгенерированный результат с желаемым значением и пытаемся изменить веса, присвоенные каждому ребру, чтобы ошибки были как можно меньше.Если после изменения ошибка увеличивается, она возвращается к предыдущему состоянию.Скорость обучения, которую вы выбираете, не должна быть очень низкой или очень высокой, иначе это приведет к исчезновению градиента или взрывной проблеме градиента соответственно, и вы не сможете достичь минимальной ошибки.