Заполнение последовательности и токенизация для модели tenorflow-lite - PullRequest
0 голосов
/ 06 июля 2019

Я обучил тензорную модель потока для классификации текста. Теперь я готов взять мою модель .tflite и развернуть ее на устройстве Android. В основном все шло гладко, но потом я вспомнил, что моя модель использует массив последовательностей с токенами и дополнениями.

Я должен использовать тот же токенизацию тензорного потока и заполнение последовательности, которые я использовал, когда тренировал свою модель. Есть ли в org.tensorflow.lite какой-либо API-интерфейс, который совпадает с текстом предварительной обработки keras и последовательностью предварительной обработки keras pad_sequence.

Следующее - то, что я сделал во время обучения -

tokenizer = text.Tokenizer(num_words)
tokenizer.fit_on_texts(list(training_input) + list(test_input))
training_input = tokenizer.texts_to_sequences(training_input)
training_input = sequence.pad_sequences(training_input, max_sequence_len)

Я должен повторить ту же предварительную обработку текста в моем Java-коде Android. Кроме того, было бы замечательно, если бы был какой-либо способ сохранить объект токенизатора, который был вызван, чтобы соответствовать моему обучающему и тестовому набору, и импортировать этот объект в мою базу кода Android.

Я искал следующую ссылку, в которой рассказывается о совместимости операции с подсвеченным тензорным потоком операций -

https://www.tensorflow.org/lite/guide/ops_compatibility

Затем я нашел tf.pad https://www.tensorflow.org/api_docs/python/tf/pad

Тем не менее, это все равно не помогает мне с токенизацией, которая была обучена подгонять под очень релевантный набор данных и может иметь новые слова, не встречающиеся в словаре английского языка.

...