градиентный спуск для пакетных нормализованных слоев - PullRequest
0 голосов
/ 01 февраля 2019

Если мне нужно вычислить спуск стохастического градиента с мини-партией размера n с тета в качестве весов и смещений моей сети, то

new_theta = old_theta - learning_rate * означает для партии частичногопроизводные тета.

Но в случае гамма и бета для пакетных нормализованных слоев

new_gamma / beta = old_gamma / beta - скорость обучения * частные производные гамма / бета?без значения для всей мини-партии?

Это правильно?

...