Я пытаюсь тренировать модель Gensim Word2Vec
по:
X = train['text']
model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)
после обучения я получаю небольшой словарь (model_word2vec.wv.vocab
) длиной 74
, содержащий только буквы алфавита.
Как я могу получить правильный словарный запас?
Обновление
Я пробовал это раньше:
tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)
model_word2vec.train(sequence, total_examples=len(X.values), epochs=10
но у меня неправильный словарный запас.