Я обучил тензорную модель потока для классификации текста. Теперь я готов взять мою модель .tflite и развернуть ее на устройстве Android. В основном все шло гладко, но потом я вспомнил, что моя модель использует массив последовательностей с токенами и дополнениями.
Я должен использовать тот же токенизацию тензорного потока и заполнение последовательности, которые я использовал, когда тренировал свою модель. Есть ли в org.tensorflow.lite какой-либо API-интерфейс, который совпадает с текстом предварительной обработки keras и последовательностью предварительной обработки keras pad_sequence.
Следующее - то, что я сделал во время обучения -
tokenizer = text.Tokenizer(num_words)
tokenizer.fit_on_texts(list(training_input) + list(test_input))
training_input = tokenizer.texts_to_sequences(training_input)
training_input = sequence.pad_sequences(training_input, max_sequence_len)
Я должен повторить ту же предварительную обработку текста в моем Java-коде Android. Кроме того, было бы замечательно, если бы был какой-либо способ сохранить объект токенизатора, который был вызван, чтобы соответствовать моему обучающему и тестовому набору, и импортировать этот объект в мою базу кода Android.
Я искал следующую ссылку, в которой рассказывается о совместимости операции с подсвеченным тензорным потоком операций -
https://www.tensorflow.org/lite/guide/ops_compatibility
Затем я нашел tf.pad
https://www.tensorflow.org/api_docs/python/tf/pad
Тем не менее, это все равно не помогает мне с токенизацией, которая была обучена подгонять под очень релевантный набор данных и может иметь новые слова, не встречающиеся в словаре английского языка.