Нет, добавлять <EOS>
<BOS>
для tf.keras.preprocessing.text.Tokenizer
не требуется, поскольку отображение index_word
работает в порядке, начинающемся с oov_token
, и следующее предпочтение - для слов с наивысшим частота и следуют слова в том же порядке, что и ввод. Это помогает Keras API обрабатывать сопоставление внутренне, в отличие от других API предварительной обработки текста, которые используют теги <START>
и <END>
.
Ниже приведен пример с примерами предложений для отображения сопоставления index_word
.
text_data = ["this is the sample sentence",
"one more sentence"]
lang_tokenizer = tf.keras.preprocessing.text.Tokenizer(oov_token="<UNK>")
lang_tokenizer.fit_on_texts(text_data)
lang_tokenizer.index_word
index_word:
{1: '<UNK>',
2: 'sentence',
3: 'this',
4: 'is',
5: 'the',
6: 'sample',
7: 'one',
8: 'more'}
Тестирование:
res = lang_tokenizer.texts_to_sequences(["testing with sample sentence"])
[[1, 1, 6, 2]]
Надеюсь, это ответ на ваш вопрос, Удачного обучения!