Как работает пакетная нормализация на CNN 2D и 1D, относительно механизма нормализации слоя - PullRequest
0 голосов
/ 24 февраля 2020

Недавно я прочитал статьи о НЛП, такие как BERT и Transformer

Они используют нормализацию слоя для нормализации слоя вместо пакетной нормализации.

Это потому, что каждый временной шаг имеет различную статистику по последовательным данным, что не подходит для нормализации партии для работы с мини-партией.

Но в CNN2D CNN1D также бывает, что каждый шаг имеет различную статистику (так как каждый сетка имеет другой объект на изображении)

Как нормализация партии работает на CNN, как это делали предыдущие модели?

Спасибо, что прочитали мой вопрос

...