Я работаю с моделью тензор потока BERT. Я хочу взять часть модели, токенизатор и сделать из нее модуль для последующего использования.
В основном я открываю и редактирую токенизатор с помощью следующего кода:
def create_tokenizer_from_hub_module():
with tf.Graph().as_default():
bert_module = hub.Module(BERT_MODEL_HUB)
print(bert_module)
tokenization_info = bert_module(signature="tokenization_info", as_dict=True)
print(tokenization_info)
with tf.Session() as sess:
vocab_file, do_lower_case = sess.run([tokenization_info["vocab_file"],
tokenization_info["do_lower_case"]])
vocab_file = 'vocab_v1.txt'
f = open(vocab_file, "r")
voc = f.read().split("\n")
print(vocab_file)
print(voc[:20])
tokenizer = create_tokenizer_from_hub_module()
Затем я регистрирую модуль для экспорта
hub.register_module_for_export(
module=tokenizer,
export_name="tokenizer_for_export"
)
После этого я должен экспортировать модуль. Глядя на документацию LastestModuleExporter (https://www.tensorflow.org/hub/api_docs/python/hub/LatestModuleExporter), кажется, что мне нужен оценщик в качестве параметра для метода «export». Я не могу найти никаких примеров этого в Интернете, поэтому я был бы рад, если бы кто-то указал мне правильное направление.
Спасибо!