Иногда мы можем столкнуться с некоторыми градиентами nan / inf во время backprop на моделях seq2seq Tensorflow. Как мы можем легко найти причину такой проблемы, например, путем определения операции и временного шага, на котором производится nan / inf?
Поскольку ошибка возникает при обратном распространении, мы не могли просто наблюдать значения градиента с помощью tf.Print (). Также в модели RNN tf.add_check_numerics_ops () не работает, и мы не можем использовать tf.check_numerics (), если мы не копаемся в грязных библиотеках tf или не переопределяем поток управления вручную. В то время как tfdbg, как общее решение, сложен в использовании и очень медленный на больших моделях.