Я натренировал свой собственный токенайзер WordPiece с помощью класса Huggingface tokenizers.BertWordPieceTokenizer . При сравнении средней длины токенов после кодирования с предварительно подготовленными / готовыми к работе HuggingFace transformers.BertTokenizer я получаю следующее для моего набора данных:
- BertWordPieceTokenizer (обученный): 29,2
- BertTokenizer (из коробки): 30,4
Является ли эта разница в среднем ~ 1 токеном значимой? Если нет, значит ли это, что мой обученный токенизатор не «работает намного лучше, чем» готовый токенайзер?
Какая разница в средней длине токенов будет означать пользу для обучения моего собственного токенизатора?