Это просто особенность базовой модели (см. здесь , чтобы проверить, что это distilroberta-base
). В частности, в дистиллированных моделях используется тот же токенизатор, что и в их «моделях учителя» (в данном случае RoBERTa). RoBERTa, в свою очередь, имеет токенизатор, который работает строго без какой-либо формы пробелов, см. Также этот поток в модели OpenAI GPT-2, которая использует ту же стратегию токенизации (см. здесь ).
В частности, вы можете заметить, что это всегда один и тот же символ Unicode \u0120
, который обозначает начало нового слова. Для сравнения, слова, состоящие из нескольких подслов, не будут иметь таких начальных символов для более поздних подслов.
Т.е. complication
будет разбит на два подслововых слова Ġcompli
cation
.
Следовательно, вы можете просто отбросить Ġ
, если оно появляется в слове.