Нормализация - это просто нормализация входного слоя. в то время как нормализация партии выполняется на каждом слое.
Мы не изучаем параметры в нормализации, но зачем нам нужно изучать нормализацию партии?
На это подробно ответили в https://stats.stackexchange.com/a/310761
Книга глубокого обучения, раздел 8.7.1: Нормализация среднего и стандартного отклонения блока может уменьшить выразительную силу нейронной сети, содержащей этот блок. Для поддержания выразительной мощности сети обычно заменяют партию активаций скрытых единиц H на γH + β, а не просто на нормализованную H. Переменные γ и β являются изученными параметрами, которые позволяют новой переменной иметь любое среднее значение и среднеквадратичное отклонение. На первый взгляд, это может показаться бесполезным - почему мы установили среднее значение на 0, а затем ввели параметр, который позволяет ему установить любое произвольное значение β? Ответ заключается в том, что новая параметризация может представляют то же семейство функций ввода, что и старая параметризация, но новая параметризация имеет другую динамику обучения. В старой параметризации среднее значение H определялось сложным взаимодействием между параметрами в слоях ниже H. В новой параметризации среднее значение γH + β определяется только β. Новую параметризацию намного легче освоить с градиентным спуском.
Книга глубокого обучения, раздел 8.7.1:
Нормализация среднего и стандартного отклонения блока может уменьшить выразительную силу нейронной сети, содержащей этот блок. Для поддержания выразительной мощности сети обычно заменяют партию активаций скрытых единиц H на γH + β, а не просто на нормализованную H. Переменные γ и β являются изученными параметрами, которые позволяют новой переменной иметь любое среднее значение и среднеквадратичное отклонение. На первый взгляд, это может показаться бесполезным - почему мы установили среднее значение на 0, а затем ввели параметр, который позволяет ему установить любое произвольное значение β?
Ответ заключается в том, что новая параметризация может представляют то же семейство функций ввода, что и старая параметризация, но новая параметризация имеет другую динамику обучения. В старой параметризации среднее значение H определялось сложным взаимодействием между параметрами в слоях ниже H. В новой параметризации среднее значение γH + β определяется только β. Новую параметризацию намного легче освоить с градиентным спуском.