Берт Комбинированная потеря

При обучении модели BERT, Masked LM и Предсказание следующего предложения обучаются вместе с целью минимизации функции комбинированных потерь двух стратегий. Мой вопрос заключается в том, что является математической причиной этого, почему многозадачность помогает повысить точность?

Берт Комбинированная потеря

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Берт Комбинированная потеря

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы