Для простого преобразования текстовых последовательностей в целочисленные последовательности мы можем использовать модуль keras.preprocessing.text.Tokenizer
.
Tokenizer
назначает индекс (не ноль) каждому слову, присутствующему в корпусе. Используя этот словарь, тексты токенизируются.
Предположим, тексты - это список предложений, которые у вас есть. Тогда,
tokenizer = keras.preprocessing.text.Tokenizer()
tokenizer.fit_on_texts( texts )
tokenized_messages = tokenizer.texts_to_sequences( texts )
padded_messages = keras.preprocessing.sequence.pad_sequences( tokenized_messages , maxlen )
Где maxlen - максимальная длина, к которой будет добавлено токенизированное сообщение (в основном путем добавления нулей).