Я пытался изменить функцию активации моего нейронного net с сигмовидной на RELU (или, более конкретно, SELU). Поскольку в результате этого изменения у меня появилось много градиентов, я попытался использовать пакетную нормализацию. Я рассчитал градиенты моей функции ошибок по параметрам обучения \ beta и \ gamma, но, похоже, они немного отличаются от тех, которые я видел в нескольких (к сожалению, только Python) примерах.
Здесь , например, в примере кода внизу страницы написано dbeta = np.sum(dout, axis=0)
, и мне интересно, что именно это dout
.
Мои производные выглядят так:
Вывод функции ошибки относительно \ beta
Что я делаю не так в этом выводе?
Большое спасибо за вашу помощь.