Zhang Yu 10 октября 2018 33

Будет ли градиент накапливаться с множественными потерями в RNN?

Zhang Yu / 10 октября 2018

Предположим, я использую Pytorch для реализации.Скажем, у меня есть RNN-подобная модель, у которой есть потери на каждом шаге:

for step in step_cnts:
    output = rnn(input, hidden)
    loss = loss + criteria(output, target)

При обратном значении loss.backward() будет ли градиент накапливаться на каждом шаге RNN?И не приведет ли это накопление к взрыву градиента?

Кстати, если я усредню потери с loss = loss / step_cnts, будет ли градиент отличаться от версии суммы?

...