Я сейчас читаю статью о Google's transformer architecture
для нейронного машинного перевода ('Attention is all you need'
).В основанной на RNN настройке seq2seq исходное предложение и выходное предложение обычно кодируются в горячем виде.В документе с трансформатором они говорят, что они дополнительно кодируют положение токена в предложении с помощью функций синуса / косинуса, что должно привести к тому, что что-то уже не будет закодировано в горячем виде.
Возможно, это наивный вопрос, норазумно ли даже combine one-hot encoded word with a positional dense encoding
?
Есть ли ожидание, что сеть узнает что-то из такого представления?Информация о словах в основном все ноль, за исключением одного поля с кучей плотных значений, представляющих позицию?Я склонен сказать, что сеть ничего не изучит или, по крайней мере, информация о токене едва ли получит какой-либо вес, поскольку это одно 1-поле в довольно большом векторе.