Здесь w обозначает совокупность всех весов в сети, b все смещения, n - общее количество обучающих входов, a - вектор выходов из сети при вводе x , и сумма по всем входам обучения x .Конечно, вывод aa зависит от x , w и b , но для простоты обозначения я явно не указал эту зависимость.
Взято из нейронной сети и глубокого обучения Майкла Нейльсена
Кто-нибудь знает, почему он делит сумму на 2?Я думал, что он собирался найти среднее, разделив на n ;вместо этого он делит на 2n .
Это делается для того, чтобы при вычислении частных производных от C (w, b) было получено 2, производное от квадратичного члена.
Вы правы, обычно мы делим на n , но этот трюк сделан для удобства вычислений.