В текущей реализации модели трансформатора выпадение применяется сразу после добавления позиционных кодировок к входам, как в функциях кодирования, так и в декодировании. соответствующая строка в коде
Поскольку сохраняемые элементы масштабируются, не влияет ли это на структуру базовых позиционных кодировок? Следует ли добавлять позиционные кодировки после операции выпадения для корректности?
Используемая модель https://github.com/tensorflow/models/blob/master/official/nlp/transformer