Я знаю, что нейронную сеть можно обучить с использованием градиентного спуска, и я понимаю, как она работает.
Недавно я наткнулся на другие алгоритмы обучения: сопряженный градиент и квазиньютоновские алгоритмы.
Я пытался понять, как они работают, но единственная хорошая интуиция, которую я смог получить, это то, что они используют производные более высокого порядка.
Мои вопросы следующие: упомянутые мной альтернативные алгоритмы принципиально отличаются от процесса обратного распространения, где веса корректируются с использованием градиента функции потерь?
Если нет, то есть ли алгоритм обучения нейронной сети, который принципиально отличается от механизма обратного распространения?
Спасибо