Question

Я пытаюсь тренировать модель Gensim Word2Vec по:

X = train['text']    

model_word2vec = models.Word2Vec(X.values, size=150)
model_word2vec.train(X.values, total_examples=len(X.values), epochs=10)

после обучения я получаю небольшой словарь (model_word2vec.wv.vocab) длиной 74, содержащий только буквы алфавита.

Как я могу получить правильный словарный запас?

Обновление

Я пробовал это раньше:

tokenizer = Tokenizer(lower=True)
tokenized_text = tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)

model_word2vec.train(sequence, total_examples=len(X.values), epochs=10

но у меня неправильный словарный запас.

gojomo · Answer 1 · 29 августа 2018

Предоставьте модели тот тип корпуса, который ей нужен: последовательность текстов, где каждый текст представляет собой список строк-токенов . Если вместо этого вы предоставите ему строки без токенов, он будет думать, что каждый отдельный символ является токеном, давая результаты, которые вы видите.

Неверная длина словаря Gensim Word2Vec

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Неверная длина словаря Gensim Word2Vec

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы