В большинстве (может быть, даже во всех) широко используемых трансформаторах вложения положения не обучаются, а определяются с помощью аналитически описанной функции (ненумерованное уравнение на стр. 6 из Внимание - это все, что вам нужно бумага):
Чтобы сохранить время вычислений в Трансформаторном пакете , они предварительно вычисляются до длины 512 и сохраняются в виде переменной который служит кешем, который не должен изменяться во время обучения.
Причина, по которой не обучаются вложения позиций, заключается в том, что вложения для более поздних позиций будут подвергнуты тренировке, но с помощью умно аналитически определенных встраиваний позиций сеть может изучить регулярность за уравнениями и обобщение для более длинных последовательностей легче.