В идеале обучающие данные должны иметь такое же распределение длин предложений, как и целевые тестовые данные. Например. в машинном переводе, если длинные предложения предназначены для перевода по окончательной модели, аналогично длинные предложения следует использовать и для обучения. Модель Transformer, по-видимому, не обобщает более длинные предложения, чем те, которые использовались для обучения, но ограничение максимальной длины предложения в обучении позволяет использовать более крупные размеры пакетов, что полезно ( Popel and Bojar, 2018 ).