Попробуйте:
FullTokenizer = bert.bert_tokenization.FullTokenizer
bert_layer = hub.KerasLayer("https://tfhub.dev/tensorflow/bert_en_uncased_L-12_H-768_A-12/1", trainable=False)
vocab_file = bert_layer.resolved_object.vocab_file.asset_path.numpy() #The vocab file of bert for tokenizer
tokenizer = FullTokenizer(vocab_file)
Затем вы можете токенизироваться с помощью токенизатора.
tokenizer.tokenize('Where are you going?')
['w', '## hee', '## re', 'are', 'you', 'собираетесь', '?']
Вы можете также передайте другие функции в ваш токенизатор. Например:
do_lower_case = bert_layer.resolved_object.do_lower_case.numpy()
tokenizer = FullTokenizer(vocab_file, do_lower_case)
tokenizer.tokenize('Where are you going?')
['где', 'are', 'you', 'собираетесь', '?']