Дифференциальные уравнения создаются на основе последнего слоя, а затем вы можете построить их в обратном направлении, уравнение в соответствии с вашим последним слоем может основываться на нескольких функциях активации.
Линейный g '(z) = 1 или 1D из 1 вектора на основе размеров слоя
сигмоид g' (z) = g (z) * (1-g (z))
Tanh g '(z) = 1 - thanh ^ 2 (z)
Relu = 1, если g (z)> 0 или другое0
Leaky Relu = 1, если g (z)> 0, и любой остаточный наклон утечки, который вы сохранили в противном случае.
Оттуда вам в основном приходится вычислять частичные градиенты дляпредыдущие слои.Проверьте http://neuralnetworksanddeeplearning.com/chap2.html для более глубокого понимания