Как тренировать модель самообслуживания? - PullRequest
0 голосов
/ 25 октября 2019

Я понимаю всю структуру трансформатора, как показано на рисунке ниже, но меня смутило то, что нижняя часть декодера имеет вход правосторонних выходов.

Например, при обучениимодель с парой двух языковых предложений, скажем, вводом является предложение «Я люблю тебя», а соответствующим французским языком является «je t'aime». Как модель тренируется? Таким образом, вход кодера - «Я люблю тебя», для декодера есть две вещи, одна из которых «je t'aime», которая должна быть подана в MASK Multi-head Attention, другая - это выход (K и V) дляMulti-head Внимание, То есть вывод вероятностей, какое слово? Кроме того, что сдвиг вправо для входа декодера?

enter image description here

...