Это похоже на градиент смещения в стандартных нейронных сетях, но здесь мы суммируем по всем градиентам по выводу свертки:
, где L - функция потерь, w и h - ширина и высота выходного значения извлечения,является градиентом выходного значения свертки относительно функции потерь.
Таким образом, градиент b вычисляется путем суммирования всех выходных градиентов свертки в каждой позиции (w, h) относительно функции потерь L.
Надеюсь, это поможет.