Предположим, я использую Pytorch для реализации.Скажем, у меня есть RNN-подобная модель, у которой есть потери на каждом шаге:
for step in step_cnts:
output = rnn(input, hidden)
loss = loss + criteria(output, target)
При обратном значении loss.backward()
будет ли градиент накапливаться на каждом шаге RNN?И не приведет ли это накопление к взрыву градиента?
Кстати, если я усредню потери с loss = loss / step_cnts
, будет ли градиент отличаться от версии суммы?