Я выполняю оптимизацию с использованием градиентного спуска, но иногда она перепрыгивает через минимум, и функция стоимости увеличивается. Я добавил условие, что если значение функции стоимости увеличилось, то отступите и на этот раз уменьшите скорость обучения. Это работает очень хорошо. Почему я нигде не вижу этого в литературе? Я прочитал много литературы по оптимизации, пытаясь адаптировать скорость обучения, но они никогда не отступают и не изменяют свой шаг. Что-то не так с этим подходом?