Мне было интересно, насколько полезно скрытое состояние кодера для сети внимания. Когда я посмотрел на структуру модели внимания, то обнаружил, что модель в целом выглядит следующим образом:
- x: ввод.
- h: скрытое состояние кодировщика, которое передает данные в скрытое состояние следующего кодера.
- s: скрытое состояние декодера, которое имеет взвешенную сумму всех скрытых состояний кодера в качестве входных данных и передает их в скрытое состояние следующего декодера.
- y: Вывод.
При таком процессе, как перевод, почему важно, чтобы скрытые состояния кодера передавались вперед или существовали в первую очередь? Мы уже знаем, каким будет следующий х. Таким образом, порядок ввода не обязательно важен для порядка вывода, равно как и то, что было запомнено из предыдущего ввода, поскольку модель внимания смотрит на все входы одновременно. Не могли бы вы просто обратить внимание непосредственно на вложение x?
Спасибо!