Трансформаторное декодирование - PullRequest
0 голосов
/ 23 мая 2019

Может ли декодер в модели трансформатора быть распараллелен как энкодер?Насколько я понимаю, кодировщик имеет все токены в последовательности, чтобы вычислить оценки самосовершенствования.Но для декодера это невозможно (как при обучении, так и при тестировании), так как внимание к себе рассчитывается на основе результатов предыдущего временного шага.Даже если мы рассмотрим какую-то технику, например, принуждение учителя, где мы объединяем ожидаемый результат с полученным, это все равно будет иметь последовательный ввод с предыдущего временного шага.В этом случае, помимо улучшения захвата долгосрочных зависимостей, лучше ли использовать преобразователь-декодер, чем, скажем, lstm, при сравнении исключительно на основе распараллеливания?

...