Значение когерентности 0,3 в модели LDA - PullRequest
0 голосов
/ 26 марта 2020

У меня возникли некоторые сомнения по поводу использования показателя когерентности при оценке модели LDA.

Я использовал модель LDA для набора данных и получил показатель когерентности в диапазоне от 0,32 до 0,37 и показатель недоумения в диапазоне от - 6,75–6,77 для различных тем.

Я использую модель LDA в пакете gensim, и это код, который я использую для вычисления показателя когерентности.

coherencemodel = CoherenceModel(model=lda_model, texts=texts, dictionary=id2word, 
coherence='c_v')
coherenceScore = coherencemodel.get_coherence()

Я всегда понимал, что использование показателя когерентности - это поиск оптимального количества тем, используемых в модели LDA. Но мне также сказали, что показатель когерентности 0,3 - это плохо.

Может кто-нибудь любезно объяснить, для чего используется показатель когерентности, и означает ли показатель 0,3 плохую модель? И когда мы сравниваем различные модели LDA, какой метод оценки лучше, степень недоумения или когерентности?

...