Средневзвешенное стремление к центру - PullRequest
1 голос
/ 23 февраля 2012

Я экспериментирую с данными рейтинга фильмов. В настоящее время делаю какие-то гибридные элементы и пользовательские прогнозы. С математической точки зрения я не уверен, как реализовать то, что я хочу, и, возможно, ответ - просто прямое взвешенное среднее, но я чувствую, что может быть какой-то другой вариант.

На данный момент у меня есть 4 значения, которые я хочу получить среднее значение

  1. элементный прогноз
  2. пользовательский прогноз
  3. Среднее среднее по фильму для данного предмета
  4. Глобальное среднее значение для данного пользователя

Поскольку в этом процессе будут другие ценности, которые мне нужно будет добавить к миксу, такие как взвешенное сходство, жанровое взвешивание, и я уверен, что есть еще несколько вещей.

На данный момент я хочу сосредоточиться на данных, доступных мне, как указано выше, так же, как и все остальное для понимания.

Вот моя теория. Для начала я хочу в равной степени оценить элемент и прогноз на основе пользователя, который будет иметь больший вес, чем глобальные средние значения.

Хотя я чувствую, что на моих очень ржавых математиках и некоторых основных попытках придумать менее линейное решение - использовать что-то вроде гармонического среднего. но вместо естественного стремления к низкому среднему значению стремятся к глобальному среднему.

например

базовый рейтинг прогнозируемых предметов 4.5

прогнозируемый пользовательский рейтинг 2.5

глобальный рейтинг фильмов 3.8

глобальный рейтинг пользователей 3,6

так что "центр" / среднее значение здесь будет 3,7

Я могу быть немного не в своей тарелке, потому что мои математики довольно ржавые, но у кого-нибудь есть мысли о том, как я мог бы математически представить то, о чем я думаю?

ИЛИ

есть ли у вас мысли о другом подходе

1 Ответ

1 голос
/ 06 марта 2012

Рекомендую заглянуть в «Справочник по системам рекомендаций» Ф. Риччи и др., 2011. В нем обобщены все общие подходы к механизмам рекомендаций и приведены все необходимые формулы.
Вот выдержка из 4.2.3:

По мере увеличения числа соседей, используемых в прогнозе, рейтинг, прогнозируемый регрессионным подходом, будет стремиться к средней оценке элемента i.Предположим, что у элемента i есть только оценки в любом конце диапазона рейтинга, то есть его любят или ненавидят, тогда регрессионный подход примет безопасное решение о том, что ценность элемента средняя.[...] С другой стороны, классификационный подход прогнозирует рейтинг как наиболее частый, присвоенный i.Это более рискованно, так как элемент будет помечен как «хороший» или «плохой».

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...