Как предложить вставку из векторов вложения gensim Word2Vec? - PullRequest
0 голосов
/ 22 ноября 2018

У меня есть pandas фрейм данных, содержащий описания.Я хотел бы объединить описания на основе значений usign CBOW.Моя задача на данный момент состоит в том, чтобы документ встраивал каждую строку в векторы равных размеров.Сначала я тренирую векторы слов, используя gensim следующим образом:

from gensim.models import Word2Vec

vocab = pd.concat((df['description'], df['more_description']))
model = Word2Vec(sentences=vocab, size=100, window=10, min_count=3, workers=4, sg=0)

Теперь я немного озадачен тем, как заменить полные предложения из моего df на векторы документов одинакового размера.

В настоящее время мой обходной путь - это перестановка каждого слова в каждой строке вектором, а затем применение уменьшения размерности PCA для приведения каждого вектора к одинаковым измерениям.Есть ли лучший способ сделать это, хотя gensim, чтобы я мог сказать что-то вроде этого:

df['description'].apply(model.vectorize)

1 Ответ

0 голосов
/ 23 ноября 2018

Я думаю, вы ищете вложение предложения.Есть много способов генерирования встраивания предложений из встраивания слов.Вы можете найти это полезным: https://stats.stackexchange.com/questions/286579/how-to-train-sentence-paragraph-document-embeddings

...