У меня возникли некоторые сомнения по поводу использования показателя когерентности при оценке модели LDA.
Я использовал модель LDA для набора данных и получил показатель когерентности в диапазоне от 0,32 до 0,37 и показатель недоумения в диапазоне от - 6,75–6,77 для различных тем.
Я использую модель LDA в пакете gensim, и это код, который я использую для вычисления показателя когерентности.
coherencemodel = CoherenceModel(model=lda_model, texts=texts, dictionary=id2word,
coherence='c_v')
coherenceScore = coherencemodel.get_coherence()
Я всегда понимал, что использование показателя когерентности - это поиск оптимального количества тем, используемых в модели LDA. Но мне также сказали, что показатель когерентности 0,3 - это плохо.
Может кто-нибудь любезно объяснить, для чего используется показатель когерентности, и означает ли показатель 0,3 плохую модель? И когда мы сравниваем различные модели LDA, какой метод оценки лучше, степень недоумения или когерентности?