Я пишу свое собственное внимание и, таким образом, копаюсь в исходном коде TensorFlow.
Функция подсчета внимания Богданау находится здесь: https://arxiv.org/abs/1409.0473 стр. 14 второе уравнение e_ij.
e = v * tanh (W s + U h) (игнорируя индексы и верхние индексы.)
e = v * tanh (W s + U h)
(игнорируя индексы и верхние индексы.)
Реализация TensorFlow здесь: https://github.com/tensorflow/tensorflow/blob/r1.11/tensorflow/contrib/seq2seq/python/ops/attention_wrapper.py строка485.
normed_v * math_ops.tanh (keys + processing_query + b), [2])
Я не вижу реализации матриц W и U в TensorFlow,Интересно, есть ли у кого-нибудь такое же наблюдение?И зачем TensorFlow привлекать внимание Бахданау так, как оно есть?