После LDA у вас есть темы, которые характеризуются как распределение слов.Если вы планируете сравнивать эти вероятностные векторы (весовые векторы, если хотите), вы можете просто использовать любое косинусное подобие, реализованное для Python, например, sklearn .
Тем не менее, этот подход покажет вам, в каких темах в общих словах вероятности, в общем, одинаковые слова указаны.
Если вы хотите измерить сходства на основе семантической информации, а не вхождения слов, вы можетехотите использовать векторы слов (как те, которые выучены Word2Vec, GloVe или FastText).
Они выучили векторы для представления слов как низкоразмерных векторов, кодирующих определенную семантическую информацию.Их легко использовать в Gensim , и типичным подходом является загрузка предварительно обученной модели, изученной в статьях Википедии или в новостях.
Если у вас есть темы, определенные словами, вы можетепредставьте эти слова как векторы и получите среднее значение косинуса сходства между словами в двух темах (мы сделали это для семинар ).Есть некоторые источники, использующие эти Векторы Word (также называемые Word Embeddings) для представления тем или документов.Например, это один.
Есть несколько недавних публикаций, сочетающих тематические модели и вложения Word, вы можете найти их, если вам интересно.