Концепция Doc2Vec :
Цель doc2vec - создать числовое представление документа независимо от его длины. Но в отличие от слов документы не имеют логической структуры, такой как слова, поэтому необходимо найти другой метод.
Концепция, которую использовали Миколов и Ле, была простой, но умной: они использовали модель word2vec и добавили еще один вектор, paragraph_ID
, который уникален для документа. Теперь, вместо того чтобы использовать только слова для предсказания следующего слова, мы также добавили еще один вектор признаков.
Таким образом, при обучении векторов слова W
вектор документа paragraph_ID
также обучается, и в конце обучения он содержит числовое представление документа.
Подробнее об этом можно прочитать здесь