Когда я классифицировал и группировал документы, написанные на естественном языке, у меня возник вопрос ...
Поскольку word2vec и glove, и / и т. Д. Векторизуют слово в распределенных пространствах, мне интересно, есть ли какой-либо метод, рекомендуемый или обычно используемый для векторизации документов ИСПОЛЬЗУЮЩИЕСЯ векторы слов.
Например,
Документ 1: «Если вы преследуете двух кроликов, вы потеряете их обоих».
может быть векторизовано как,
[0,1425, 0,2718, 0,8187, ...., 0,1011]
Я знаю об одном, также известном как doc2vec, что этот документ имеет n измерений, как и word2vec. Но это 1 x n измерений, и я проверял, чтобы определить пределы использования doc2vec.
Итак, я хочу знать, как другие люди применяют векторы слов для приложений с постоянным размером.
Просто сложив векторы с m словами, будут сформированы m x n размерных векторов. В этом случае векторное измерение не будет в форме, поскольку измерение m будет зависеть от количества слов в документе .
Если: [0,1018, ..., 0,8717]
вы: [0,5182, ..., 0,8981]
..: [...]
м-е слово: [...]
И эта форма не подходит для запуска некоторых алгоритмов машинного обучения, таких как CNN. Каковы предлагаемые способы получения векторов документов в устойчивой форме с использованием векторов слов?
Было бы замечательно, если бы он также был снабжен бумагами.
Спасибо!