Векторизация новых текстовых данных - PullRequest
0 голосов
/ 15 февраля 2019

Я тренировал модель Word2vec на "коричневом корпусе".

Я хочу применить векторизованные слова к новому текстовому документу, предложения которого я затем хочу кластеризовать следующим образом: Affinity Propagation.

import gensim
import nltk
from nltk.corpus import brown

sentences = brown.sents()
model = gensim.models.Word2Vec(sentences, min_count=1)
model.save('brown_model')

model = gensim.models.Word2Vec.load('brown_model')

Мой текстовый документ содержит список таких запросовas:

"I want to go to the store"

"I want the president to help me"

"Clean up my house"

Мой вопрос:

Как я могу применить векторизованный Brown corpus к своим собственным текстовым данным для последующей кластеризации?

1 Ответ

0 голосов
/ 16 февраля 2019

если я хорошо понимаю, вопрос последующих целей кластеризации можно решить следующим образом:

words = set(brown.words())
print (len(words))
...
word_presented = words.intersection(model.vocab.keys())

взгляните на эту статью

...