Почему три вложения Берта могут быть добавлены? - PullRequest
0 голосов
/ 03 марта 2020

Я уже знаю значение «Встраивание токенов», «Внедрение сегментов» и «Вложение позиций». Но почему эти три вектора можно сложить вместе? Размер и направление векторов изменятся после добавления, и семантика слова также изменится. (Это тот же вопрос, что и для модели Transformer, в которой есть два встраивания, называемые врезкой ввода и встраиванием позиции.)

1 Ответ

1 голос
/ 04 марта 2020

Во-первых, эти векторы добавляются поэлементно -> Размер вложений остается неизменным.

Во-вторых, позиция играет значительную роль в значении токена, поэтому она должна как-то быть частью вложение. Внимание: встраивание токена не обязательно содержит информацию semanti c, как мы теперь ее получаем из word2ve c, все эти вложения (токен, сегмент и позиция) изучаются вместе в ходе предварительного обучения, чтобы они лучше всего выполнялись sh задачи вместе. При предварительной подготовке они уже сложены вместе, поэтому они специально подготовлены для этого случая. Направление векторов изменяется при этом добавлении, но новое направление дает важную информацию для модели, упакованную всего в один вектор.

Примечание: каждый вектор огромен (768 измерений в базовой модели)

...