Я тренировал модель LDA на корпусе с использованием Gensim.Теперь, когда у меня есть распределение тем для каждого документа, как я могу сравнить, насколько похожи два документа в темах?Я хотел бы иметь сводную меру.Например, ниже приведены тематические рассылки двух документов.Всего 75 тем.Для краткости я показываю только первые 10 тем с наибольшей вероятностью (поэтому темы не в порядке).(40, 0,5523168) означает, что тема № 40 имеет вероятность 0,5523168 для DOC # 1.Должен ли я рассчитать евклидово или косинусное расстояние между двумя векторами?И, используя эту сводную меру, могу ли я сказать, что, например, DOC 1 больше похож на DOC2, чем на DOC3, или DOC1 и DOC 2 больше похожи друг на друга, чем DOC 3 и DOC 4 тематически?Спасибо!
DOC #1:
[(40, 0.5523168), (60, 0.12225048), (43, 0.07556598), (41, 0.065885976),
(22, 0.05838573), (24, 0.044774733), (74, 0.019839266), (65, 0.019544959),
(51, 0.015470431), (36, 0.013449047)]
DOC #2:
[(73, 0.58864516), (41, 0.16827711), (51, 0.09783472), (63, 0.06510383),
(24, 0.04722658), (32, 0.014467965), (44, 0.012267662), (47, 0.0031533625),
(18, 0.0022214972), (0, 1.2154361e-05)]