Кто-нибудь здесь знает, есть ли какая-либо нормализация или масштабирование между слоями в существующих архитектурах нейронных сетей?
Масштабирование входов является обычным явлением, и я знаком с взрывом ReLU.Большинство моделей, которые я вижу, указывают на небольшой диапазон значений от -2 до +2, но я не вижу, как это можно поддерживать от слоя к слою.Независимо от функции активации выход второго уровня составляет десятки, тогда как третий слой составляет сотни, а конечный выход - десятки тысяч.В худшем случае слой возвращает NaN.Обойти это можно путем масштабирования или чередования ReLU / sigmoid, но я хотел бы знать, является ли это распространенным явлением?