Включить токенизатор в SavedModel для BERT - PullRequest
0 голосов
/ 12 октября 2019

Я пытаюсь экспортировать точно настроенную модель BERT в SavedModel. Я нашел что-то вроде этого

def serving_input_fn():
    reciever_tensors = {
        "input_ids": tf.placeholder(dtype=tf.int32,
                                    shape=[1, MAX_SEQ_LENGTH])
    }
    features = {
        "input_ids": reciever_tensors['input_ids'],
        "input_mask": 1 - tf.cast(tf.equal(reciever_tensors['input_ids'], 0), dtype=tf.int32),
        "segment_ids": tf.zeros(dtype=tf.int32, shape=[1, MAX_SEQ_LENGTH]),
        "label_ids": tf.placeholder(tf.int32, [None], name='label_ids')
    }
    return tf.estimator.export.ServingInputReceiver(features, reciever_tensors)

estimator._export_to_tpu = False
estimator.export_saved_model("export", serving_input_fn)

, но я предпочитаю напрямую вводить строку (например, модель универсального кодировщика предложений) вместо кодирования. Есть ли способ сделать токенизацию частью SavedModel?

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...