Из книги Аурелиена Герона "Практическое машинное обучение с Scikit-Learn, Keras & Tensorflow", стр. 337:
"Авторы показали, что если вы строите нейронную сеть, состоящую исключительно из стека плотных слоев, и если все скрытые слои используют функцию активации SELU, то сеть будет самостоятельно -нормализуйте : выходные данные каждого слоя будут стремиться к сохранению среднего значения 0 и стандартного отклонения 1 во время тренировки, что решает проблему исчезающих / взрывных градиентов.
Мой вопрос таков: почему оно сохраняет среднее значение 0? Отрицательные значения смещаются гораздо больше к 0, чем положительные значения, так почему же среднее значение на выходе не превышает среднее значение на входе?