Я слежу за книгой по машинному обучению Эндрю Гласснера .
Мой вопрос касается объяснения для Backpropogation, в частности наброска алгоритма для обновления весов нейронной сети.
Автор использует следующую терминологию (изображение 1), где крошечная сеть имеет 1 скрытый слой и 1 выходной слой X - A C -> P1 Y - B D -> P2 IHO Prediction
Веса между ними названы как AC для между A и C. Автор фокусируется на backprop от C до A.
Здесь он говорит, что Cdelta пропорциональна общему выходному изменению ошибки. Пусть будет постепенное изменение веса, то есть новый вес = AC + ACm и выход A по-прежнему Ao.
Тогда влияние изменения на ошибку (Em) из-за изменения веса будет Ao.ACm. Cdelta, а для единицы измерения ACm это будет Ao.Cdelta. Затем он просто говорит: «Мы можем перевернуть это (изображение 3) и сказать, что для изменения единицы измерения ошибки, ACm (изменение веса), мы должны добавить Ao.Cdelta квес ».
Мой аргумент такой: разве это не должно быть наоборот? т.е. 1 / Ao.Cdelta?
Буду признателен кому-то, кто понял это, чтобы объяснить это.