Межуровневое масштабирование или нормализация между скрытыми слоями в ANN CNN и MLP - PullRequest
0 голосов
/ 29 мая 2018

Кто-нибудь здесь знает, есть ли какая-либо нормализация или масштабирование между слоями в существующих архитектурах нейронных сетей?

Масштабирование входов является обычным явлением, и я знаком с взрывом ReLU.Большинство моделей, которые я вижу, указывают на небольшой диапазон значений от -2 до +2, но я не вижу, как это можно поддерживать от слоя к слою.Независимо от функции активации выход второго уровня составляет десятки, тогда как третий слой составляет сотни, а конечный выход - десятки тысяч.В худшем случае слой возвращает NaN.Обойти это можно путем масштабирования или чередования ReLU / sigmoid, но я хотел бы знать, является ли это распространенным явлением?

1 Ответ

0 голосов
/ 29 мая 2018

Практически в каждой сети используется пакетная нормализация, и это именно то, что нужно.Бумагу можно найти здесь: (https://arxiv.org/abs/1502.03167). По сути, она нормализует значения до 0 и отклонения единиц перед подачей на следующий слой. Другая работа посвящена самонормализации линейных единиц (selu), что в некотором смыследелает это автоматически без необходимости масштабирования. Бумагу можно найти здесь: (https://arxiv.org/abs/1706.02515).

...