Каковы входы для кодера и декодера трансформатора в BERT? - PullRequest
2 голосов
/ 24 февраля 2020

Я читал бумагу BERT , и мне было непонятно, что касается входных сигналов для кодера и декодера трансформатора .

Для изучения модели маскированного языка (задача Cloze) в документе говорится, что 15% токенов маскируются, и сеть обучена прогнозированию маскированных токенов. Поскольку дело обстоит именно так, каковы входы для энкодера и декодера трансформатора?

BERT input representation (from the paper)

Является ли вход для энкодера трансформатора этим входным представлением (см. изображение выше). Если да, что является входом декодера?

Кроме того, как рассчитывается потеря на выходе? Это softmax только для замаскированных локаций? Для этого один и тот же линейный слой используется для всех маскируемых токенов?

1 Ответ

2 голосов
/ 25 февраля 2020

Ах, но вы видите, BERT не включает в себя декодер Transformer. Это только часть кодировщика, с добавленным классификатором сверху.

Для прогнозирования замаскированного слова классификатор действует как своего рода декодер, пытаясь восстановить истинные идентичности замаскированных слов. Классификация Немаскированный не входит в задачу классификации и не влияет на потери.

BERT также обучен прогнозированию, предшествует ли пара предложений другому или нет.

Я делаю Не помню, как две потери взвешены.

Надеюсь, это др aws более четкая картина.

...