![enter image description here](https://i.stack.imgur.com/UbAvD.png)
Посмотрите на изображение. Показывает функцию потерь J
как функцию параметра W
. Здесь это упрощенное представление с W
, являющимся единственным параметром. Таким образом, для выпуклой функции потерь кривая выглядит так, как показано.
Обратите внимание, что скорость обучения положительна. С левой стороны, градиент (наклон линии, касательной к кривой в этой точке) отрицателен, поэтому произведение скорости обучения и градиента отрицательно. Таким образом, вычитание продукта из W
фактически увеличит W
(так как 2 негатива дают положительный результат). В этом случае это хорошо, потому что потери уменьшаются.
С другой стороны (с правой стороны) градиент положительный, поэтому произведение скорости обучения и градиента положительное, поэтому произведение обученияСкорость и градиент положительны. Таким образом, вычитание продукта из W
уменьшает W
. В этом случае также это хорошо, потому что потери уменьшаются.
Мы можем расширить эту же вещь для большего числа параметров (показанный график будет более размерным и его будет непросто визуализировать, поэтомуизначально мы взяли один параметр W
и для других функций потерь (даже невыпуклых, хотя они не всегда сходятся к глобальным минимумам, но определенно к ближайшим локальным минимумам).
Примечание. Это объяснение можно найти в курсах глубокого обучения Эндрю Нга, но я не смог найти прямую ссылку, поэтому написал этот ответ.