Я пытаюсь вручную вычислить градиент, чтобы выполнить обратное распространение для моей нейронной сети
формула для моей прямой функции: A * relu(A * X * W0) * W1
все A, X, W0, W1 матрицы, и я хочу получить градиент по A
Я использую pytorch, поэтому было бы здорово, если бы кто-нибудь мог показать, как получить градиент этой функции в pytorch (без использования autograd).
Спасибо!