Я понимаю всю структуру трансформатора, как показано на рисунке ниже, но меня смутило то, что нижняя часть декодера имеет вход правосторонних выходов.
Например, при обучениимодель с парой двух языковых предложений, скажем, вводом является предложение «Я люблю тебя», а соответствующим французским языком является «je t'aime». Как модель тренируется? Таким образом, вход кодера - «Я люблю тебя», для декодера есть две вещи, одна из которых «je t'aime», которая должна быть подана в MASK Multi-head Attention, другая - это выход (K и V) дляMulti-head Внимание, То есть вывод вероятностей, какое слово? Кроме того, что сдвиг вправо для входа декодера?
![enter image description here](https://i.stack.imgur.com/Qrurh.png)