Question

Я понимаю всю структуру трансформатора, как показано на рисунке ниже, но меня смутило то, что нижняя часть декодера имеет вход правосторонних выходов.

Например, при обучениимодель с парой двух языковых предложений, скажем, вводом является предложение «Я люблю тебя», а соответствующим французским языком является «je t'aime». Как модель тренируется? Таким образом, вход кодера - «Я люблю тебя», для декодера есть две вещи, одна из которых «je t'aime», которая должна быть подана в MASK Multi-head Attention, другая - это выход (K и V) дляMulti-head Внимание, То есть вывод вероятностей, какое слово? Кроме того, что сдвиг вправо для входа декодера?

Как тренировать модель самообслуживания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как тренировать модель самообслуживания?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы