Я хотел бы реализовать BERT в C ++.
Может кто-нибудь рассказать мне подробное объяснение о модели для предварительного обучения, о тензорах цели и ответа, а также об алгоритме расчета потерь с использованием этих двух тензоров .
Спасибо.