Batch Norm - это набор операций, применяемых к входному значению каждого слоя.Он имеет преимущество в ускорении изучения сети и введения шума на каждом уровне.
Операция может быть кратко изложена следующим образом:
$$ \ mu = frac {1} {m} \ sum {z ^ {(i)}} $$
$$ \ sigma ^ 2 = \ frac {1} {m} \ sum {(z ^ {(i)} - \ mu) ^ 2} $$
$$ z ^ {(i)} _ {norm} = \ frac {z ^ {(i)} - \ mu} {\ sqrt {\ sigma ^ 2 + \ epsilon}} $$
$$ \ tilde z ^ {(i)} = \ gamma z ^ {(i)} _ {norm} + \ beta $$
$ \ gamma, \ beta $ - это просто скалярные параметры, которые умножаются на входное значение каждого слоя.Веса и уклон в этом слое делают то же самое.В чем различия между ними.
Добавляет ли новый обучаемый параметр $ \ gamma, \ beta $ то же самое, что удваивать скрытый слой в нейронной сети?