У меня есть фрейм данных, в котором столбец Заголовок первой строки содержит этот текст:
Use of hydrocolloids as cryoprotectant for frozen foods
Используя этот код:
vocabulary_size = 1000
tokenizer = Tokenizer(num_words=vocabulary_size)
tokenizer.fit_on_texts(df['Title'])
sequences = tokenizer.texts_to_sequences(df['Title'])
print(sequences[0])
Я получаю эту последовательность:
[57, 1, 21, 7]
Используя это:
index_word = {v: k for k, v in tokenizer.word_index.items()}
print(index_word[57])
print(index_word[1])
print(index_word[21])
print(index_word[7])
Я получаю:
use
of
as
for
Это имеет смысл, так как это более частые слова. Можно ли также использовать токенизатор, чтобы основывать токенизацию на tf – idf ?
Увеличение словарного запаса также помечает реже встречающиеся слова, такие как:
hydrocolloids
Я собираюсь использовать перчатку вниз по течению для задачи классификации. Имеет ли смысл хранить частые и, следовательно, потенциально менее разборчивые слова, такие как:
use
в? Возможно, да, поскольку перчатка также смотрит на контекст, который контрастирует с подходами, которые я использовал в прошлом. Здесь tf – idf имеет смысл.