Градиент отсечения со стохастическим градиентным спуском - PullRequest
0 голосов
/ 02 июля 2018

Я тренирую рекуррентную нейронную сеть, но я хочу применить градиент отсечения. Я использую SGD. Можно ли использовать градиент отсечения для суммы градиентов, рассчитанных для мини-пакета?

1 Ответ

0 голосов
/ 03 июля 2018

Отсечение суммы градиентов не имеет никакого эффекта. Вместо этого вы должны обрезать каждый градиент отдельно.

Вот небольшой фрагмент кода для отсечения градиента в Tensorflow:

max = 20
grads = tf.gradients(loss, tf.trainable_variables())
grads, _ = tf.clip_by_global_norm(grads, max)  # gradient clipping
grads_and_vars = list(zip(grads, tf.trainable_variables()))
optimizer = tf.train.AdamOptimizer(learning_rate)
train_op = optimizer.apply_gradients(grads_and_vars)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...