Насколько я могу судить, автор (https://github.com/mchen24) этого doc2vecc.c
кода (и бумаги) только что внес минимальные изменения в некоторый пример кода "вектор абзаца", который сам по себе был минимальным изменением оригинала.Google / Mikolov word2vec.c
(https://github.com/tmikolov/word2vec/blob/master/word2vec.c).
Ни «вектор абзаца», ни последующие doc2vecc
изменения, по-видимому, не включают в себя какие-либо функции для определения векторов для новых документов.
Поскольку это неконтролируемые алгоритмы, для некоторых целей может оказаться целесообразным вычислять векторы документов для некоторой последующей задачи классификации, как для учебного, так и для тестового текста, в одном и том же комбинированном массовом обучении. (Ваши конечные цели могут фактически иметь немаркированные примерычтобы помочь освоить векторизацию документов, даже если ваш классификатор должен быть обучен и оценен на некотором подмножестве текстов с известными ярлыками.)