Позиционное кодирование в официальном выпуске трансформатора отличается от оригинальной статьи - PullRequest
0 голосов
/ 28 июня 2018

В оригинальной статье Внимание - это все, что вам нужно , позиционное кодирование определяется как: ре

, но в Transformer's model_utils.py я обнаружил, что формула отличается в строке 53. В статье функции sin и cos отображаются попеременно в соответствии с четным или единичным измерением, в то время как они непрерывны в половине измерения соответственно.

1 Ответ

0 голосов
/ 29 ноября 2018

Вы правы, но я не думаю, что это имеет какое-либо значение. Представление каждой позиции с помощью позиционного кодирования является уникальным, независимо от того, что вы объединяете sin/cos или заставляете их попеременно появляться в конечном векторе.

Пока кодировка уникальна и мы всегда генерируем кодировку последовательно, информация о местоположении сохраняется в модели.

...