У меня есть стандартный набор данных рекомендаций, где пользователи голосуют за фильмы. Структура:
user_id | movie_id | score
u01 23 2.0
u02 12 3.5
u03 15 4.2
u04 12 1.2
...
Я хочу построить граф сходства (фактически его матрицу смежности), где пользователи соединяются взвешенными ребрами. Теперь самой простой вещью будет граничный вес, равный количеству фильмов, общих для пользователей. Но есть ли способ учитывать как количество фильмов + сходство баллов?
Например, если у u02 и u04 есть 20 общих фильмов, но 15 из них присваивают очень разные оценки, эти пользователи не обязательно будут похожи. Есть ли стандартная мера для этого?