Берт Комбинированная потеря - PullRequest
0 голосов
/ 31 октября 2019

При обучении модели BERT, Masked LM и Предсказание следующего предложения обучаются вместе с целью минимизации функции комбинированных потерь двух стратегий. Мой вопрос заключается в том, что является математической причиной этого, почему многозадачность помогает повысить точность?

...