У меня есть текстовые данные, которые я хочу узнать по темам, которые у меня есть, я использовал обученный doc2vec на большом корпусе, таком как Википедия, но в результатах есть несогласованность. Есть ли лучший подход для открытия тем.
Вы можете попробовать использовать иерархический процесс Дирихле, реализованный в gensim классе gensim.models.hdpmodel.HdpModel. Из документов gensim :
gensim
gensim.models.hdpmodel.HdpModel
В отличие от своего конечного аналога, скрытого распределения Дирихле, HDP модель темы выводит количество тем из данных.