Класс Doc2Vec
не служит полной базой документов, в которой хранятся исходные документы в их исходных форматах.Это потребовало бы много дополнительной сложности и состояния.
Вместо этого вы просто представляете документы с их конкретными тегами в формате токенов, который необходим для обучения, и модель только изучает и сохраняет их векторные представления.
Если вам нужно затем искать исходные документы, вы должны поддерживать свой собственный поиск (теги -> документы), который многие проекты уже будут иметь в качестве исходного источника документов.
Документы класса Doc2Vec
находятся на https://radimrehurek.com/gensim/models/doc2vec.html, но также может быть полезно взглянуть на примеры ноутбуков Jupyter, включенных в каталог gensim
docs/notebooks
, но также доступных для просмотра в Интернете по адресу:
https://github.com/RaRe-Technologies/gensim/tree/develop/docs/notebooks
В трех записных книжках, связанных с Doc2Vec
, имена файлов начинаются с doc2vec-
.