Gensim использует словарь для создания моделей мешков слов, которые образуют корпус.
# Make the dictionary from your texts
common_dictionary = Dictionary(common_texts)
# Use the dictionary to generate the corpus (set of bag-of-words models)
common_corpus = [common_dictionary.doc2bow(text) for text in common_texts]
Затем вы можете использовать этот словарь снова, чтобы создать новый, но похожий корпус из невидимых текстов.
other_corpus = [common_dictionary.doc2bow(text) for text in other_texts]
Вам нужен словарь, чтобы иметь корпус, так как корпус состоит из документов, преобразованных в пакет слов, и словарь необходим для создания пакета слов. Другие реализации модели мешка слов (такие как CountVectoriser sklearn
) скрывают от вас словарь, но он все еще там.