Я использую Gensim LDA для тематического моделирования.Мне нужно получить тему распределения корпуса , а не отдельные документы.Допустим, у меня есть 1000 документов, которые относятся к 10 различным категориям (скажем, 100 документов для каждой категории).После обучения модели LDA в общей сложности 1000 документов, я хочу посмотреть, какие доминирующие темы в каждой категории.Следующее изображение иллюстрирует мой набор данных и цель.
Пока я могу думать о двух подходах, но я не уверен, что любой из них вменяемый, я будубудьте счастливы узнать, есть ли лучший способ сделать это.
При первом подходе я могу объединить документы каждой категории в один большой документ.Таким образом, будет только 10 больших документов, следовательно, для каждого документа я смогу найти его тему распространения.
Другим подходом может быть распространение темы по всему документу без объединения документов.Следовательно, для каждой категории у нас будет 100 документов тематических рассылок.Чтобы получить доминирующие темы для каждой категории, я могу суммировать вероятность каждой темы и получить только несколько тем с наибольшим количеством баллов.Я не уверен, что какой-либо из этих подходов является правильным, что бы вы предложили?