Моя программа использует кластеризацию для создания подмножеств схожих элементов, а затем использует меру косинусного сходства как метод определения того, насколько похожи кластеры. Например, если пользователь 1 имеет 3 кластера, а пользователь 2 имеет 3 кластера, то каждый кластер сравнивается друг с другом, будет получено 9 результатов с использованием меры сходства косинусов, например, [0,3, 0,1, 0,4, 0,12, 0,0, 0,6, 0,8, 1,0, 0,22]
Моя проблема в том, что, основываясь на этих результатах, как я могу превратить эти значения в ощутимый результат, чтобы показать, насколько похожи эти два пользователя?
Простой метод, который я разработал, состоял в том, чтобы просто разделить все значения на количество сравнений и сложить их вместе, чтобы получить 1 значение, но это довольно простой подход.
Спасибо
AS
Основное описание того, чего я пытаюсь добиться, - это то, можно ли определить, насколько похожи два пользователя из веб-службы социальных закладок Delicious.com по их закладкам и тегам.
До сих пор я создал кластеры из тегов пользовательских закладок и совместного использования каждого тега, например, один кластер может быть:
fruit: (apple, 15), (orange, 9), (kiwi, 2)
и другой пользователь может создать похожий кластер из своих тегов:
fruit: (apple, 12), (strawberry, 7), (orange, 3)
Число представляет количество совпадений тега в сохраненной закладке с тегом "фрукты" в этом примере.
Я использовал меру косинусного сходства, чтобы сравнить эти кластеры, чтобы определить, насколько они похожи, и, исходя из моего первоначального вопроса, со многими результатами сравнения кластеров (сравнивая кластеры каждого пользователя с кластерами другого пользователя), я не уверен, как агрегировать результаты чтобы получить значимый результат.
Вполне возможно, что я неправильно использовал косинусное сходство,