Однонаправленный трансформатор VS двунаправленный BERT - PullRequest
1 голос
/ 12 марта 2019

Я только что закончил читать бумагу Transformer и BERT . Но не мог понять, почему Transformer однонаправлен, а BERT двунаправлен, как упоминалось в статье BERT. Поскольку они не используют повторяющиеся сети, интерпретировать указания не так просто. Кто-нибудь может дать некоторую подсказку? Спасибо.

1 Ответ

2 голосов
/ 12 марта 2019

Для пояснения, оригинальная модель Transformer от Vaswani et al. это архитектура кодер-декодер Поэтому утверждение «Трансформатор однонаправлен» вводит в заблуждение.

Фактически, преобразователь энкодера является двунаправленным, что означает, что самообслуживание может обслуживать токены как слева, так и справа. Напротив, декодер является однонаправленным, поскольку при генерации текста по одному токену за раз вы не можете позволить декодеру присутствовать справа от текущего токена. Трансформаторный декодер ограничивает внимание, маскируя жетоны справа.

BERT использует архитектуру трансформаторного кодера и поэтому может обслуживать как слева, так и справа, что приводит к "двунаправленности".

Из самой бумаги BERT:

Мы отмечаем, что в литературе двунаправленный преобразователь часто упоминается как «преобразователь преобразователя», в то время как версия только для левого контекста упоминается как «декодер преобразователя», поскольку он может использоваться для генерации текста.

Рекомендуемое чтение: эта статья .

...