Question

Я сейчас читаю статью о Google's transformer architecture для нейронного машинного перевода ('Attention is all you need').В основанной на RNN настройке seq2seq исходное предложение и выходное предложение обычно кодируются в горячем виде.В документе с трансформатором они говорят, что они дополнительно кодируют положение токена в предложении с помощью функций синуса / косинуса, что должно привести к тому, что что-то уже не будет закодировано в горячем виде.

Возможно, это наивный вопрос, норазумно ли даже combine one-hot encoded word with a positional dense encoding?

Есть ли ожидание, что сеть узнает что-то из такого представления?Информация о словах в основном все ноль, за исключением одного поля с кучей плотных значений, представляющих позицию?Я склонен сказать, что сеть ничего не изучит или, по крайней мере, информация о токене едва ли получит какой-либо вес, поскольку это одно 1-поле в довольно большом векторе.

Нейронный машинный перевод: объединение горячего вложения с плотным встраиванием?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нейронный машинный перевод: объединение горячего вложения с плотным встраиванием?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы