Зачем для реализации LDA gensim нужны корпус и словарь? - PullRequest
0 голосов
/ 08 марта 2020

Я рассматриваю реализацию Lens gensim и говорит, что ей нужен корпус и словарь корпуса?

https://radimrehurek.com/gensim/models/ldamodel.html

В чем причина? за это?

1 Ответ

0 голосов
/ 08 марта 2020

Gensim использует словарь для создания моделей мешков слов, которые образуют корпус.

# Make the dictionary from your texts
common_dictionary = Dictionary(common_texts)

# Use the dictionary to generate the corpus (set of bag-of-words models)
common_corpus = [common_dictionary.doc2bow(text) for text in common_texts]

Затем вы можете использовать этот словарь снова, чтобы создать новый, но похожий корпус из невидимых текстов.

other_corpus = [common_dictionary.doc2bow(text) for text in other_texts]

Вам нужен словарь, чтобы иметь корпус, так как корпус состоит из документов, преобразованных в пакет слов, и словарь необходим для создания пакета слов. Другие реализации модели мешка слов (такие как CountVectoriser sklearn) скрывают от вас словарь, но он все еще там.

...