Я долго размышлял над этой мыслью. Таким образом, в NMT мы передаем текст на исходном языке на этапе seq2seq кодера и язык на целевом языке на этапе seq2seq декодера, и система изучает условные вероятности для каждого слова, встречающегося с его словом целевого языка. Пример: P (слово x | предыдущие n-слова). Мы тренируем это, заставляя учителя.
Но что, если я снова передам входное предложение в качестве ввода на этапе декодера вместо целевого предложения. Чему бы он научился в этом случае? Я предполагаю, что это научится предсказывать наиболее вероятное следующее слово в предложении , учитывая предыдущий текст, верно? Что ты думаешь
Заранее спасибо