Короче говоря - модель, безусловно, использует вложения слов, они просто не являются предварительно обученными встраиваниями, такими как Glove или word2vec; вместо этого встраивания случайным образом инициализируются и совместно обучаются вместе с остальной частью сети.
В полном описании сети в разделе A.2 оригинала Bahdanau et al. на бумаге, вы увидите слово встраиваемые матрицы E
, описанное как для кодера, так и для декодера. Как они были инициализированы, также описано в разделе B.1.
Это обычно работает так же хорошо или лучше, чем предварительно обученные вложения в ситуациях, когда у вас достаточно данных. Тем не менее, в условиях низкого ресурса, это может помочь инициализировать матрицу внедрения с предварительно обученными вложениями. Эта статья может помочь вам изучить эту идею более подробно.
Кроме того, ваше утверждение о том, что текущие реализации этого не делают, не совсем точно - хотя по умолчанию встраивания обычно совместно обучаются, многие существующие нейронные инструментарии MT имеют возможность инициализировать встраивания предварительно обученными векторы. Например, OpenNMT-py , Marian .