У меня есть вопрос об измерении / расчете согласованности тем для моделей LDA, встроенных в scikit-learn.
Тема согласованности является полезным показателем для измерения интерпретируемости человеком данной тематической модели LDA. CoherenceModel от Gensim позволяет рассчитывать когерентность темы для данной модели LDA (включены несколько вариантов).
Меня интересует использование LDA * scikit-learn LDA , а не LDA * gensim для простоты использования и документирования ( примечание: я хотел бы избежать использования gensim для scikit -обучить обертку, т.е. фактически использовать LDA склеарна). По моим исследованиям, похоже, нет научного эквивалента Gensim CoherenceModel.
Есть ли способ либо:
1 - Подача модели LDA scikit-learn в конвейер gensim CoherenceModel, либо путем ручного преобразования модели scikit-learn в формат gensim, либо через оболочку scikit-learn в оболочку gensim (я видел оболочку наоборот) для создания когерентности темы?
Или
2 - Вручную рассчитать согласованность тем из модели LDA scikit-learn и матриц CountVectorizer / Tfidf?
Я провел немало исследований по реализации для этого варианта использования в Интернете, но не видел каких-либо решений. Единственные выводы, которые у меня есть, - это документированные уравнения из научной литературы.
Если у кого-нибудь есть какие-либо знания о подобных реализациях, или если вы могли бы указать мне правильное направление для создания ручного метода для этого, это было бы здорово. Спасибо!
* Примечание: я понимаю, что в scikit-learn для измерения производительности доступны недоумение и логарифмическая вероятность, но это не так предсказуемо из того, что я прочитал.