Question

В курсе CS231N говорится, что мы хотим, чтобы данные, центрированные по нулю, не давали локальному градиенту всегда быть одним и тем же признаком восходящего градиента, спускающегося вниз, что вызывает неэффективные обновления градиента.Но использование relu в каждом слое приведет к выводу всех положительных чисел, как решить проблему неэффективного обновления градиента?

Почему Vgg16 использует relu после каждого слоя свертки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Почему Vgg16 использует relu после каждого слоя свертки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы