У меня есть pandas
фрейм данных, содержащий описания.Я хотел бы объединить описания на основе значений usign CBOW
.Моя задача на данный момент состоит в том, чтобы документ встраивал каждую строку в векторы равных размеров.Сначала я тренирую векторы слов, используя gensim
следующим образом:
from gensim.models import Word2Vec
vocab = pd.concat((df['description'], df['more_description']))
model = Word2Vec(sentences=vocab, size=100, window=10, min_count=3, workers=4, sg=0)
Теперь я немного озадачен тем, как заменить полные предложения из моего df
на векторы документов одинакового размера.
В настоящее время мой обходной путь - это перестановка каждого слова в каждой строке вектором, а затем применение уменьшения размерности PCA для приведения каждого вектора к одинаковым измерениям.Есть ли лучший способ сделать это, хотя gensim
, чтобы я мог сказать что-то вроде этого:
df['description'].apply(model.vectorize)