Я использую предварительно обученную модель BERT для токенизации текста в значимые токены. Однако в тексте много специфических c слов, и я не хочу, чтобы модель BERT разбивала их на части. Есть ли какое-то решение? Например:
tokenizer = BertTokenizer('bert-base-uncased-vocab.txt')
tokens = tokenizer.tokenize("metastasis")
Создайте токены следующим образом:
['meta', '##sta', '##sis']
Однако я хочу сохранить все слова как один токен, например:
['metastasis']