BERT неявно моделирует количество слов? - PullRequest
0 голосов
/ 18 июня 2019

Учитывая, что BERT двунаправленный, неявно ли он моделирует подсчет слов в некотором заданном тексте? Я спрашиваю в случае классификации описаний столбцов данных как действительные или нет. Я ищу модель, основанную на количестве слов, и мне было интересно, нужно ли это делать, учитывая, что BERT двунаправленный.

1 Ответ

0 голосов
/ 25 июня 2019

BERT по умолчанию учитывает токенизацию "word-piece", а не токенизацию "word".BERT делает доступным атрибут max-sequence length, который отвечает за ограничение числа токенов в каждом предложении, а также обеспечивает обработку равного количества токенов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...