Я пересматриваю версию Альберта от huggface.
Однако я не могу найти ни кода, ни комментария о SOP.
Я могу найти реализацию NSP (Next Sentence Prediction) из моделирование_from src / transformers / modelling_bert.py .
if masked_lm_labels is not None and next_sentence_label is not None:
loss_fct = CrossEntropyLoss()
masked_lm_loss = loss_fct(prediction_scores.view(-1, self.config.vocab_size), masked_lm_labels.view(-1))
next_sentence_loss = loss_fct(seq_relationship_score.view(-1, 2), next_sentence_label.view(-1))
total_loss = masked_lm_loss + next_sentence_loss
outputs = (total_loss,) + outputs
Унаследована ли здесь SOP с маркировкой в стиле SOP? или мне чего-то не хватает?