Как элегантно отладить nan / inf на градиентах в модели Tensorflow с RNN? - PullRequest
0 голосов
/ 08 мая 2019

Иногда мы можем столкнуться с некоторыми градиентами nan / inf во время backprop на моделях seq2seq Tensorflow. Как мы можем легко найти причину такой проблемы, например, путем определения операции и временного шага, на котором производится nan / inf?

Поскольку ошибка возникает при обратном распространении, мы не могли просто наблюдать значения градиента с помощью tf.Print (). Также в модели RNN tf.add_check_numerics_ops () не работает, и мы не можем использовать tf.check_numerics (), если мы не копаемся в грязных библиотеках tf или не переопределяем поток управления вручную. В то время как tfdbg, как общее решение, сложен в использовании и очень медленный на больших моделях.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...