Ах, но вы видите, BERT не включает в себя декодер Transformer. Это только часть кодировщика, с добавленным классификатором сверху.
Для прогнозирования замаскированного слова классификатор действует как своего рода декодер, пытаясь восстановить истинные идентичности замаскированных слов. Классификация Немаскированный не входит в задачу классификации и не влияет на потери.
BERT также обучен прогнозированию, предшествует ли пара предложений другому или нет.
Я делаю Не помню, как две потери взвешены.
Надеюсь, это др aws более четкая картина.