from transformers import AutoModel, AutoTokenizer
tokenizer1 = AutoTokenizer.from_pretrained("roberta-base")
tokenizer2 = AutoTokenizer.from_pretrained("bert-base-cased")
sequence = "A Titan RTX has 24GB of VRAM"
print(tokenizer1.tokenize(sequence))
print(tokenizer2.tokenize(sequence))
Вывод:
['A', 'Titan', 'ĠRTX', 'Ġhas', 'Ġ24', 'GB', 'Ġof', 'ĠVR', 'AM' ]
['A', 'Titan', 'R', '## T', '## X', 'has', '24', '## GB', 'of', 'V', '## RA', '## M']
В модели Берта используется токенайзер WordPiece. Любое слово, которое не встречается в словаре WordPiece, жадно разбивается на подслов. Например, «RTX» разбит на «R», «## T» и «## X», где ## указывает, что это подтокен.
Роберта использует токенайзер BPE, но я не могу понять
а) как работает токенайзер BPE?
б) что представляет G в каждом из токенов?