Неверная длина словаря Gensim Word2Vec - PullRequest
0 голосов
/ 28 августа 2018

Я пытаюсь тренировать модель Gensim Word2Vec по:

X = train['text']    

model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)

после обучения я получаю небольшой словарь (model_word2vec.wv.vocab) длиной 74, содержащий только буквы алфавита.

Как я могу получить правильный словарный запас?

Обновление

Я пробовал это раньше:

tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)

model_word2vec.train(sequence, total_examples=len(X.values), epochs=10

но у меня неправильный словарный запас.

1 Ответ

0 голосов
/ 29 августа 2018

Предоставьте модели тот тип корпуса, который ей нужен: последовательность текстов, где каждый текст представляет собой список строк-токенов . Если вместо этого вы предоставите ему строки без токенов, он будет думать, что каждый отдельный символ является токеном, давая результаты, которые вы видите.

...