grad_h = grad_h_relu.clone()
Это означает, что вы делаете копию градиента relu таким образом, чтобы он не разделял память с оригиналом grad_h_relu
.Затем вы выполняете некоторые операции на нем.Поскольку они хранятся в двух разных местах, изменение значения grad_h
с помощью следующей операции не повлияет на grad_h_relu
.
grad_h[h < 0] = 0
grad_w1 = x.t().mm(grad_h)
. Это grad_w1
необходимо для обновления параметров вашей сети.,