Когда вы тренируете свой собственный токенайзер WordPiece, каким должно быть ожидаемое сокращение токенов по сравнению с токенайзером с предварительной подготовкой? - PullRequest
0 голосов
/ 01 мая 2020

Я натренировал свой собственный токенайзер WordPiece с помощью класса Huggingface tokenizers.BertWordPieceTokenizer . При сравнении средней длины токенов после кодирования с предварительно подготовленными / готовыми к работе HuggingFace transformers.BertTokenizer я получаю следующее для моего набора данных:

  • BertWordPieceTokenizer (обученный): 29,2
  • BertTokenizer (из коробки): 30,4

Является ли эта разница в среднем ~ 1 токеном значимой? Если нет, значит ли это, что мой обученный токенизатор не «работает намного лучше, чем» готовый токенайзер?

Какая разница в средней длине токенов будет означать пользу для обучения моего собственного токенизатора?

...