Question

Я читал бумагу BERT , и мне было непонятно, что касается входных сигналов для кодера и декодера трансформатора .

Для изучения модели маскированного языка (задача Cloze) в документе говорится, что 15% токенов маскируются, и сеть обучена прогнозированию маскированных токенов. Поскольку дело обстоит именно так, каковы входы для энкодера и декодера трансформатора?

Является ли вход для энкодера трансформатора этим входным представлением (см. изображение выше). Если да, что является входом декодера?

Кроме того, как рассчитывается потеря на выходе? Это softmax только для замаскированных локаций? Для этого один и тот же линейный слой используется для всех маскируемых токенов?

user2182857 · Answer 1 · 25 февраля 2020

Ах, но вы видите, BERT не включает в себя декодер Transformer. Это только часть кодировщика, с добавленным классификатором сверху.

Для прогнозирования замаскированного слова классификатор действует как своего рода декодер, пытаясь восстановить истинные идентичности замаскированных слов. Классификация Немаскированный не входит в задачу классификации и не влияет на потери.

BERT также обучен прогнозированию, предшествует ли пара предложений другому или нет.

Я делаю Не помню, как две потери взвешены.

Надеюсь, это др aws более четкая картина.

Каковы входы для кодера и декодера трансформатора в BERT?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каковы входы для кодера и декодера трансформатора в BERT?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы