Сумма, которую вы изменяете для каждого отдельного веса и смещения, будет частной производной вашей функции стоимости по отношению к каждому отдельному весу и каждому отдельному смещению.
∂C/∂(index of bias in network)
Поскольку ваша функция стоимости, вероятно, явно не зависит от индивидуальных весов и значений (например, стоимость может равняться (выход сети - ожидаемый выход) ^ 2), вам необходимо будет связать частичноепроизводные каждого веса и смещения к чему-то, что вы знаете, то есть значения активации (выходы) нейронов.Вот отличное руководство для этого:
https://medium.com/@erikhallstrm/backpropagation-from-the-beginning-77356edf427d
В этом руководстве говорится, как делать эти вещи четко, но иногда может не хватать объяснений.Мне было очень полезно читать главы 1 и 2 этой книги, когда я читал руководство, указанное выше:
http://neuralnetworksanddeeplearning.com/chap1.html (предоставляет основную информацию для ответа на ваш вопрос)
http://neuralnetworksanddeeplearning.com/chap2.html (отвечает на ваш вопрос)
По сути, смещения обновляются так же, как обновляются весовые коэффициенты: изменение определяется на основе градиента функции стоимости в многомерной точке,
Думайте о проблеме, которую пытается решить ваша сеть, как о ландшафте многомерных холмов и долин (градиентов).Этот ландшафт представляет собой графическое представление того, как изменяются ваши затраты при изменении веса и смещений.Цель нейронной сети - достичь самой низкой точки в этом ландшафте, тем самым найти наименьшую стоимость и минимизировать ошибки.Если вы представляете свою сеть как путешественник, пытающийся достичь дна этих градиентов (т.е. градиентного спуска), то величина, на которую вы будете изменять каждый вес (и смещение), связана с наклоном наклона (градиент функции)что путешественник в настоящее время спускается вниз.Точное местоположение путешественника задается многомерной координатной точкой (weight1, weight2, weight3, ... weight_n), где смещение можно рассматривать как другой вид веса.Думая о весах / смещениях сети как переменных для функции стоимости сети, становится ясно, что следует использовать ∂C / ∂ (индекс смещения в сети).