Насколько я понимаю, каждый блок кодера принимает выходные данные от предыдущего кодировщика, и что выходные данные представляют собой присутствующее представление (Z) последовательности (также известное как предложение).Мой вопрос в том, как последний блок кодера выдает K, V из Z (для использования в кодере внимания-декодирования кодера-декодера)
мы просто берем Wk и Wv из последнего уровня кодера?
http://jalammar.github.io/illustrated-transformer/