Почему Vgg16 использует relu после каждого слоя свертки? - PullRequest
0 голосов
/ 30 сентября 2018

В курсе CS231N говорится, что мы хотим, чтобы данные, центрированные по нулю, не давали локальному градиенту всегда быть одним и тем же признаком восходящего градиента, спускающегося вниз, что вызывает неэффективные обновления градиента.Но использование relu в каждом слое приведет к выводу всех положительных чисел, как решить проблему неэффективного обновления градиента?

...