Я так растерялся из-за проблемы деградации, что немного знаю о проблемах исчезновения и взрыва градиента, но почему точность обучения снижается в глубокой сети при использовании пакетной нормы и ReLU для решения проблемы исчезновения градиента!