Я создал тематическую модель с некоторыми начальными семенами, используя пакет guidedlda - https://github.com/vi3k6i5/GuidedLDA. Выглядит хорошо.Однако теперь я хочу видеть распределение частот и облако слов для каждой темы.Как мне это сделать?
Я получаю 10 лучших слов в каждой теме, как это,
>>> n_top_words = 10
>>> topic_word = model.topic_word_
>>> for i, topic_dist in enumerate(topic_word):
>>> topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n_top_words+1):-1]
>>> print('Topic {}: {}'.format(i, ' '.join(topic_words)))
Topic 0: game play team win season player second point start victory
Topic 1: company percent market price business sell executive pay plan sale
Topic 2: play life man music place write turn woman old book
Topic 3: official government state political leader states issue case member country
Topic 4: school child city program problem student state study family group
Однако, как мне узнать, сколько раз каждое слово появляется в теме и производитОблако слов на это?Потому что я не уверен, что эта модель отражает частоту слов.
Заранее спасибо.