Gensim doc2vec самый похожий эквивалент для получения полных документов - PullRequest
0 голосов
/ 25 мая 2018

В реализации Gensim doc2vec, gensim.models.keyedvectors.Doc2VecKeyedVectors.most_similar возвращает теги и косинусное сходство документов, наиболее похожих на документ запроса.Что делать, если я хочу сами документы, а не теги?Есть ли способ сделать это напрямую без поиска документа, связанного с тегом, возвращаемым most_similar?

Кроме того, есть ли документация по этому поводу?Я не могу найти документацию для половины классов Генсима.

1 Ответ

0 голосов
/ 28 мая 2018

Класс Doc2Vec не служит полной базой документов, в которой хранятся исходные документы в их исходных форматах.Это потребовало бы много дополнительной сложности и состояния.

Вместо этого вы просто представляете документы с их конкретными тегами в формате токенов, который необходим для обучения, и модель только изучает и сохраняет их векторные представления.

Если вам нужно затем искать исходные документы, вы должны поддерживать свой собственный поиск (теги -> документы), который многие проекты уже будут иметь в качестве исходного источника документов.

Документы класса Doc2Vec находятся на https://radimrehurek.com/gensim/models/doc2vec.html, но также может быть полезно взглянуть на примеры ноутбуков Jupyter, включенных в каталог gensim docs/notebooks, но также доступных для просмотра в Интернете по адресу:

https://github.com/RaRe-Technologies/gensim/tree/develop/docs/notebooks

В трех записных книжках, связанных с Doc2Vec, имена файлов начинаются с doc2vec-.

...