В архитектуре seq2seq в простейшей форме у вас есть одна ячейка RNN (например, LSTM или GRU или vannal RNN) для кодера и другая ячейка RNN для декодера.Во время тренировок вы обновляете весовые матрицы в этих единицах.По окончании тренировки вы фиксируете и сохраняете изученные весовые матрицы.И во время логического вывода вы используете те же блоки кодера и декодера (как в блоках RNN с сохраненными весовыми матрицами).
Что отличается во время обучения и логического вывода, так это то, что в основном вы будете использовать ячейку RNN декодера.Во время обучения каждый раз подает токены истины на декодер.Принимая во внимание, что при выводе вы используете декодер для вычисления идентификаторов токенов для выходной последовательности один за другим и передачи их обратно.