BERT: вопрос-ответ - общее количество допустимых слов / токенов для обучения - PullRequest
0 голосов
/ 18 июня 2020

Допустим, я хочу обучить BERT парой из 2 предложений (запрос-ответ) против определенной двоичной метки (1,0) для правильности ответа, позволит ли BERT мне использовать 512 слов / токенов каждое для запроса и ответ или вместе (запрос + ответ вместе) их должно быть 512? [510 при игнорировании токенов [start] и [sep]]

Заранее спасибо!

1 Ответ

0 голосов
/ 19 июня 2020

Вместе, а на самом деле их должно быть 509, поскольку есть два [SEP], один после вопроса и другой после ответа:

[CLS] q_word1 q_word2 ... [SEP] a_word1 a_word2 ... [SEP]

где q_word относится к словам в вопросе и a_word относится к словам в ответе

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...