Допустим, я хочу обучить BERT парой из 2 предложений (запрос-ответ) против определенной двоичной метки (1,0) для правильности ответа, позволит ли BERT мне использовать 512 слов / токенов каждое для запроса и ответ или вместе (запрос + ответ вместе) их должно быть 512? [510 при игнорировании токенов [start] и [sep]]
Заранее спасибо!
Вместе, а на самом деле их должно быть 509, поскольку есть два [SEP], один после вопроса и другой после ответа:
[CLS] q_word1 q_word2 ... [SEP] a_word1 a_word2 ... [SEP]
где q_word относится к словам в вопросе и a_word относится к словам в ответе
q_word
a_word