Как обнаружить темы в произвольном текстовом файле или данных? не зная количество тем заранее - PullRequest
0 голосов
/ 13 мая 2019

У меня есть текстовые данные, которые я хочу узнать по темам, которые у меня есть, я использовал обученный doc2vec на большом корпусе, таком как Википедия, но в результатах есть несогласованность. Есть ли лучший подход для открытия тем.

1 Ответ

1 голос
/ 15 мая 2019

Вы можете попробовать использовать иерархический процесс Дирихле, реализованный в gensim классе gensim.models.hdpmodel.HdpModel. Из документов gensim :

В отличие от своего конечного аналога, скрытого распределения Дирихле, HDP модель темы выводит количество тем из данных.

...