Нужно ли ранжировать производные функций активации [0,1]? - PullRequest
0 голосов
/ 30 апреля 2019

Я обнаружил, что производные общих функций активации ранжируются в [0,1].https://ml -cheatsheet.readthedocs.io / en / latest / активации_functions.html

Это причина исчезновения градиента в RNN.

По какой причине производные хранятся в [0,1], когда функции активации впервые были введены в глубокое обучение?Что произойдет с MLP, если мы используем вариацию Relu, такую ​​как f (x) = max (0, 2x) с производной в диапазоне [0,2]

1 Ответ

0 голосов
/ 30 апреля 2019

Противоположностью градиента исчезновения является градиент взрыва, в результате чего градиент достигает очень высоких значений. Точно так же, как исчезающий градиент вызывает большие проблемы при спуске градиента, так и взрывной градиент с особенно большими шагами, предпринимаемыми во время оптимизации.

Это явление очень важно для сетей RNN, использующих время обратного распространения, поскольку во время обратного распространения градиенты последовательных временных шагов эффективно умножаются друг на друга. Таким образом, увеличение значений градиента до [0, 2] приведет к увеличению градиента на 2^n, увеличивая вероятность градиента эпокслинда.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...