Question

Насколько я понимаю, каждый блок кодера принимает выходные данные от предыдущего кодировщика, и что выходные данные представляют собой присутствующее представление (Z) последовательности (также известное как предложение).Мой вопрос в том, как последний блок кодера выдает K, V из Z (для использования в кодере внимания-декодирования кодера-декодера)

мы просто берем Wk и Wv из последнего уровня кодера?

http://jalammar.github.io/illustrated-transformer/

Transformer - Внимание - это все, что вам нужно - кодер, декодер, перекрестное внимание

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Transformer - Внимание - это все, что вам нужно - кодер, декодер, перекрестное внимание

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы