Topi c моделирование - Как получить разные подтемы из одной темы - PullRequest
0 голосов
/ 22 апреля 2020

Я работаю с 8k документов, и все они основаны на одной топике c. Тем не менее, документы охватывают различные события, которые произошли по всему миру, связанные с этой единственной темой c. Я хочу найти эти подтемы (или события) из документов. Теперь, чтобы добиться этого, я использую модель LDA gensim:

corpus = [dictionary.doc2bow(doc) for doc in docTrain]

model = gensim.models.ldamodel.LdaModel(corpus=corpus, num_topics=17, chunksize=10000, id2word=dictionary,random_state=123, alpha = 0.01, eta = 0.9, passes = 10 )

coherencemodel = gensim.models.CoherenceModel(model=model, texts=data, dictionary=dictionary, coherence='c_v')

Поскольку я не знал о количестве тем в этом случае, я использовал метод локтя, чтобы определить оптимальное количество тем в этом случае. 17 или 18. Кроме того, показатель когерентности не превышает 0,4.

Я хочу знать, что происходит, и если есть какой-либо другой подход, который поможет мне решить эту проблему в лучший способ. Пожалуйста, дайте мне знать, если требуется какая-либо другая информация относительно моего подхода.

...