В модели NMT (такой как seq2seq или модель внимания), как я могу переводить длинные предложения с более длинными токенами, чем кодировщик?Должен ли я переделать нейронную сеть (с более длинным входным размером) или у меня может быть какое-то недопонимание относительно кодера?