Doc2vecC предсказывающие векторы для невидимых документов - PullRequest
0 голосов
/ 23 января 2019

Я обучил набор документов с использованием Doc2vecc.

https://github.com/mchen24/iclr2017

Я пытаюсь сгенерировать вектор внедрения для невидимых документов. Я обучил документы, как указано в go.sh.

"""
time ./doc2vecc -train ./aclImdb/alldata-shuf.txt -word 
wordvectors.txt -output docvectors.txt -cbow 1 -size 100 -window 10 - 
negative 5 -hs 0 -sample 0 -threads 4 -binary 0 -iter 20 -min-count 10 
-test ./aclImdb/alldata.txt -sentence-sample 0.1 -save-vocab 
alldata.vocab
"""

Я получаю docvectors.txt и wordvectors.txt для набора поездов.Теперь отсюда, как мне генерировать векторы для невидимого теста, используя ту же модель без переподготовки.

1 Ответ

0 голосов
/ 23 января 2019

Насколько я могу судить, автор (https://github.com/mchen24) этого doc2vecc.c кода (и бумаги) только что внес минимальные изменения в некоторый пример кода "вектор абзаца", который сам по себе был минимальным изменением оригинала.Google / Mikolov word2vec.c (https://github.com/tmikolov/word2vec/blob/master/word2vec.c).

Ни «вектор абзаца», ни последующие doc2vecc изменения, по-видимому, не включают в себя какие-либо функции для определения векторов для новых документов.

Поскольку это неконтролируемые алгоритмы, для некоторых целей может оказаться целесообразным вычислять векторы документов для некоторой последующей задачи классификации, как для учебного, так и для тестового текста, в одном и том же комбинированном массовом обучении. (Ваши конечные цели могут фактически иметь немаркированные примерычтобы помочь освоить векторизацию документов, даже если ваш классификатор должен быть обучен и оценен на некотором подмножестве текстов с известными ярлыками.)

...