Если мне нужно вычислить спуск стохастического градиента с мини-партией размера n с тета в качестве весов и смещений моей сети, то
new_theta = old_theta - learning_rate * означает для партии частичногопроизводные тета.
Но в случае гамма и бета для пакетных нормализованных слоев
new_gamma / beta = old_gamma / beta - скорость обучения * частные производные гамма / бета?без значения для всей мини-партии?
Это правильно?