Краткий ответ:
Основываясь на Ioffe & Szegedy 2015 , вам нужно реализовать слой Batch Normalization (BN) + слой Activation Function (который в вашем случае Tanh ограничивает выход в диапазоне [-1, + 1]) после Fully Связанные (FC) слои и до нелинейности следующим образом:
Для этого нам нужно импортировать BatchNormilization
из Keras, как показано ниже.
from keras.models import Sequential
from keras.layers import Dense, Activation, BatchNormalization
model = Sequential([
Dense(16, input_shape=(1,5), activation='tanh'),
BatchNormalization(axis=1),
Dense(32, activation='tanh'),
BatchNormalization(axis=1),
Dense(2, activation='tanh')
])
Полный ответ
Функция активации Tanh:
Активация tanh используется, чтобы помочь регулировать значения, проходящие через сеть. Функция tanh сводит значения, чтобы всегда быть между -1 и 1.

Нормализация партии:
Чтобы повысить стабильность нейронной сети, нормализация партии нормализует выходные данные предыдущего слоя активации путем вычитания среднего значения партии и деления на стандартное отклонение партии. Однако после этого сдвига / шкалы активации по некоторым случайно инициализированным параметрам веса в следующем слое перестают быть оптимальными. SGD (Стохастический градиентный спуск) отменяет эту нормализацию, если это способ минимизировать функцию потерь.
Следовательно, нормализация партии добавляет два обучаемых параметра к каждому слою, поэтому нормализованный вывод умножается на параметр «стандартное отклонение» gamma_initializer
и добавляет «средний» параметр beta_initializer
. Другими словами, пакетная нормализация позволяет SGD выполнять денормализацию, изменяя только эти два веса для каждой активации, вместо потери стабильности сети путем изменения всех весов. По умолчанию они установлены на 0
и 1
от Keras, но мы можем при желании изменить их, а также некоторые другие необязательные параметры.
