Градиент исчезновения / взрыва в RNN - PullRequest
0 голосов
/ 17 июня 2020

мы знаем (производная веса потерь / начального слоя) = || Матрица Якоби (матрица активации) '|| . || Матрица весов ||

зависит от работы этих двух норм матриц. если сингулярные значения весовой матрицы высоки, мы можем получить взрывной градиент. или низкие сингулярные значения дают нам исчезающий градиент.

так же, как мы понимаем для производных матрицы активации <= 0,25 (сигмоид) / 1 (tanh & Relu). низкие числа умножаются и делают его более низким. вопрос: </p>

В RNN все весовые матрицы одинаковые. так что он должен постоянно давать нам взрывающийся / исчезающий градиент? что бы мы ни возьмем.

почему бы и нет?

...