Почему никакие вложения слов (Glove, word2vecetc) не используются в документе первого внимания? - PullRequest
0 голосов
/ 12 марта 2019

В статье Нейронный машинный перевод путем совместного обучения выравниванию и переводу Bahdanau et.al. почему не используются вложения слов, такие как Glove или word2vec?

Я понимаю, что это была статья 2014 года, но текущие реализации статьи на github также не используют вложения слов?

Для попытки кодировать статью используется вложение словразумно?

1 Ответ

0 голосов
/ 12 марта 2019

Короче говоря - модель, безусловно, использует вложения слов, они просто не являются предварительно обученными встраиваниями, такими как Glove или word2vec; вместо этого встраивания случайным образом инициализируются и совместно обучаются вместе с остальной частью сети.

В полном описании сети в разделе A.2 оригинала Bahdanau et al. на бумаге, вы увидите слово встраиваемые матрицы E, описанное как для кодера, так и для декодера. Как они были инициализированы, также описано в разделе B.1.

Это обычно работает так же хорошо или лучше, чем предварительно обученные вложения в ситуациях, когда у вас достаточно данных. Тем не менее, в условиях низкого ресурса, это может помочь инициализировать матрицу внедрения с предварительно обученными вложениями. Эта статья может помочь вам изучить эту идею более подробно.

Кроме того, ваше утверждение о том, что текущие реализации этого не делают, не совсем точно - хотя по умолчанию встраивания обычно совместно обучаются, многие существующие нейронные инструментарии MT имеют возможность инициализировать встраивания предварительно обученными векторы. Например, OpenNMT-py , Marian .

...