Transformer - Внимание - это все, что вам нужно - кодер, декодер, перекрестное внимание - PullRequest
0 голосов
/ 04 февраля 2019

Насколько я понимаю, каждый блок кодера принимает выходные данные от предыдущего кодировщика, и что выходные данные представляют собой присутствующее представление (Z) последовательности (также известное как предложение).Мой вопрос в том, как последний блок кодера выдает K, V из Z (для использования в кодере внимания-декодирования кодера-декодера)

мы просто берем Wk и Wv из последнего уровня кодера?

http://jalammar.github.io/illustrated-transformer/

...