У меня недавно появилось небольшое узкое место в тренировках.Я всегда добавляю много гистограмм в резюме.Я хочу знать, будет ли вычисление градиентов сначала, а затем минимизация потерь рассчитывать вдвое больше градиентов.Упрощенный код:
# layers
...
# optimizer
loss = tf.losses.mean_squared_error(labels=y_true, predictions=logits)
opt = AdamOptimizer(learning_rate)
# collect gradients
gradients = opt.compute_gradients(loss)
# train operation
train_op = opt.minimize(loss)
...
# merge summary
...
Существует ли метод минимизации в оптимизаторах, которые используют непосредственно градиенты?Что-то вроде opt.minimize(gradients)
вместо opt.minimize(loss)
?