При обучении модели BERT, Masked LM и Предсказание следующего предложения обучаются вместе с целью минимизации функции комбинированных потерь двух стратегий. Мой вопрос заключается в том, что является математической причиной этого, почему многозадачность помогает повысить точность?