Быстрый поиск показывает использование этого, в частности, при обсуждении исходной реализации BERT и этого потока HuggingFace .
Неиспользованные токены полезны, если вы хотите ввести конкретные c слов в свою тонкую настройку или дальнейшую предтренировочную процедуру; они позволяют обрабатывать слова, которые имеют отношение только к вашему контексту, как вы хотите, и избегать разделения подслов, которое произошло бы с исходным словарем BERT. Цитата из первого обсуждения:
Просто замените токены «[unusedX]» своим словарём. Поскольку они не использовались, они инициализируются случайным образом.