Используйте токенизатор NLTK в рабочем процессе Keras - PullRequest
0 голосов
/ 05 августа 2020

Я использую токенизатор Keras для токенизации предложений, а затем для создания последовательностей индексов слов, которые я могу использовать при обучении нейронных сетей:

from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=5000)
tokenizer.fit_on_texts(X_train)
X_train = tokenizer.texts_to_sequences(X_train)

Как я могу использовать токенизатор NLTK casual_tokenize для достижения аналогичный результат? Toeknizer NLTK не предлагает методtext_to_sequences ().

1 Ответ

0 голосов
/ 05 августа 2020

Сначала вы можете токенизировать текст с помощью NLTK. Затем сохраните токены в виде строки с разделителем пробелов. Затем используйте Keras Tokenizer как обычно.

from nltk.tokenize import word_tokenize

X_train_tokenized = []
for test in X_train:
    X_train_tokenized.append(' '.join([token for token in word_tokenize(text)]))

tokenizer = Tokenizer(num_words=5000)
tokenizer.fit_on_texts(X_train_tokenized)
X_train = tokenizer.texts_to_sequences(X_train_tokenized)
...