Предположим, у нас есть набор данных X (2D-массив), и мы делим его на партии X_1, ..., X_k
. Затем для каждой партии мы делаем нормализацию, затем каждый i-й компонент элемента партии мы умножаем на параметр gamma_i
и добавляем к ним beta_i
.
Уровень нормализации партии можно повторить несколько раз, и я не сталМы не нашли ничего о том, как это реализовано глубже в сети.
В следующих слоях BN мы используем то же разделение для пакетов, что и в начале (используя те же строки в X, что и в первом уровне BN), простодобавление новых параметров gamma
и beta
, или мы делаем это с нуля для каждого слоя ввода?
Надеюсь, мой вопрос ясен.