riccardo viviano 01 февраля 2019 81

градиентный спуск для пакетных нормализованных слоев

riccardo viviano / 01 февраля 2019

Если мне нужно вычислить спуск стохастического градиента с мини-партией размера n с тета в качестве весов и смещений моей сети, то

new_theta = old_theta - learning_rate * означает для партии частичногопроизводные тета.

Но в случае гамма и бета для пакетных нормализованных слоев

new_gamma / beta = old_gamma / beta - скорость обучения * частные производные гамма / бета?без значения для всей мини-партии?

Это правильно?

...