градиентный спуск работает по уравнению средняя квадратичная ошибка , которое является уравнением параболы y=x^2
Мы часто говорим, что корректировка веса в нейронной сети с помощью алгоритма градиентного спуска можетударить локальные минимумы и застрять там.
Мой вопрос: как возможны локальные минимумы по уравнению параболы, где наклон всегда параболический!