С таким крошечным набором данных я не смогу дать никакого ответа, так же как просто попытаться проверить, работает ли он.
50000 является небольшим sh для тренировочного набора, но некоторые полезные Doc2Vec
результаты были основаны на подобных корпусах.
Вывод вектора, как и обучение, сокращает документы любой длины до вектора фиксированного размера. (Но обратите внимание: gensim молча ограничивает любой текст, подаваемый на модель 2Vec
, до 10000 токенов.)
Но, если вы натренировали модель на документах, которые содержат около 1000 слов, попробуйте сделать вывод на 10 фрагменты-слова, которые делают c -векторы, могут быть не такими полезными или полезными, как предполагаемые векторы в документах, более похожих на обучающий набор. Но вам все равно нужно попробовать это выяснить. (Также обратите внимание: слова, не выученные во время обучения, полностью игнорируются при выводе, поэтому последующие выводы в документах со многими / всеми неизвестными словами будут слабыми или бессмысленными.)
Так ли это в случае ваших документов вывода - они сильно отличаются от учебных документов по размеру и словарному запасу? И если так, то почему? (Можете ли вы тренироваться с более репрезентативными документами?)
Если набор из 36000 документов зафиксирован до начала обучения, может быть также допустимо / оправданно включить их в неконтролируемое обучение Doc2Vec
. Это данные, они помогают выучить домен lin go, и у них нет какой-либо формы «правильных» ответов для классификации.