почему для нормализации не нужны параметры, а для пакетной нормализации нужны - PullRequest
0 голосов
/ 23 января 2020

Нормализация - это просто нормализация входного слоя. в то время как нормализация партии выполняется на каждом слое.

Мы не изучаем параметры в нормализации, но зачем нам нужно изучать нормализацию партии?

1 Ответ

0 голосов
/ 23 января 2020

На это подробно ответили в https://stats.stackexchange.com/a/310761

Книга глубокого обучения, раздел 8.7.1:

Нормализация среднего и стандартного отклонения блока может уменьшить выразительную силу нейронной сети, содержащей этот блок. Для поддержания выразительной мощности сети обычно заменяют партию активаций скрытых единиц H на γH + β, а не просто на нормализованную H. Переменные γ и β являются изученными параметрами, которые позволяют новой переменной иметь любое среднее значение и среднеквадратичное отклонение. На первый взгляд, это может показаться бесполезным - почему мы установили среднее значение на 0, а затем ввели параметр, который позволяет ему установить любое произвольное значение β?

Ответ заключается в том, что новая параметризация может представляют то же семейство функций ввода, что и старая параметризация, но новая параметризация имеет другую динамику обучения. В старой параметризации среднее значение H определялось сложным взаимодействием между параметрами в слоях ниже H. В новой параметризации среднее значение γH + β определяется только β. Новую параметризацию намного легче освоить с градиентным спуском.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...