Хорошо, вот моя идея:
Мои уроки статистики немного прошли. Но вы могли бы сделать линейные регрессии со смешанной моделью, т.е. е. с фиктивными переменными группы, чтобы выяснить индивидуальную предвзятость каждого пользователя.
Итак, это был бы мой первый шаг, имея такую модель:
оценка фильма пользователем = оценка фильма + предвзятость пользователя.
каждый пользователь имеет одинаковое смещение во всех фильмах.
Теперь создайте график следующим образом: каждый фильм - это узел, и для каждого пользователя добавьте ребро или увеличьте его вес на единицу между всеми парами фильмов, которые ему нравятся.
Запустите Weighted Cluster Editing на графике, чтобы определить кластеры фильмов. Настройте определение «лайки» выше, чтобы получить довольно большие кластеры.
Теперь мы улучшаем модель:
оценка фильма пользователем = оценка фильма + смещение пользователя + смещение кластера.
И хорошо, с этим я бы пошел и предсказал.
Edit:
Лучше сделай 5 кластеризацию. В одном добавьте ребра только для 5-звездочных голосов. В следующем за 4 и 5-звездочные голоса. И пр.
А теперь модель:
оценка фильма пользователем = оценка фильма + общее смещение + 5-звездное смещение + 4-5-звездное смещение + ... + 5-4-3-2-1-звездное смещение
регрессировать и предсказывать!