В курсе CS231N говорится, что мы хотим, чтобы данные, центрированные по нулю, не давали локальному градиенту всегда быть одним и тем же признаком восходящего градиента, спускающегося вниз, что вызывает неэффективные обновления градиента.Но использование relu в каждом слое приведет к выводу всех положительных чисел, как решить проблему неэффективного обновления градиента?