В части декодера Seq2seq это похоже на моделирование языка, которому дается входное слово и скрытое состояние, чтобы предсказать следующее слово.
Как двунаправленная информация может быть использована в этом механизме?
Кроме того, что мы также должны генерировать слова предложения рядом за следующим в двунаправленном декодере RNN?
Спасибо.