Согласно оригинальному документу Распределенные представления предложений и документов , вывод по невидимому абзацу можно сделать с помощью
, обучающего «этап вывода», чтобы получить векторы абзаца D для новых абзацев (никогда раньше не видел), добавив больше столбцов в D и градиент, уменьшающийся на D , удерживая W, U, b исправлено
Эта стадия вывода может быть выполнена в генсиме infer_vector()
.Если у меня есть window = 5
для модели doc2vec, и я пытаюсь вывести абзац, некоторые предложения которого len(sentence) < 5
.
, такие как:
model = Doc2Vec(window=5)
paragraph = [['I', 'am', 'groot'], ['I', 'am', 'groot', 'I', 'am', 'groot']]
model.infer_vector(paragraph)
В этомв таком случае, должен ли я предварительно дополнить свой выводящий вектор специальным символом слова NULL, чтобы вся длина предложений в абзаце была больше размера окна?
, таких как:
paragraph = [['I', 'am', 'groot', NULL, NULL], ['I', 'am', 'groot', 'I', 'am', 'groot']]