Какова мотивация коэффициента Пирсона в Apache Mahout? - PullRequest
0 голосов
/ 20 марта 2012

Этот вопрос относится к части Рекомендации Apache Mahout, в которой используется коэффициент Пирсона для измерения сходства между пользователями. Насколько я понимаю, вот как коэффициент Пирсона измеряет сходство между пользователями.

Допустим, 2 пользователя оценили 5 элементов a, b, c, d и e. Скажем, их рейтинги: a1, b1, c1, d1, e1 и a2, b2, c2, d2, e2. Теперь коэффициент Пирсона дает оценку соответствия наименьших квадратов прямой линии с учетом точек (a1, a2), (b1, b2), (c1, c2), (d1, d2) и (e1, e2). Я понимаю, что главная цель, стоящая за этим (основываясь на моем чтении в другом месте), заключается в том, что вы хотите показать точность предсказания рейтинга другого пользователя для любого объекта с учетом рейтинга текущего пользователя. Теперь, если точки лежат на прямой линии, это означает, что вы можете предсказать рейтинг другого человека с учетом рейтинга текущего пользователя. Таким образом, коэффициент будет равен 1. С другой стороны, если точки не лежат на прямой линии, наименьшее квадратное совпадение представляется по шкале от -1 до 1, 0 в том смысле, что они полностью смещены и есть вообще никаких отношений, и 1 / -1 идеально подходит.

Теперь мой вопрос: почему только прямая линия? Почему мы не можем решить, лежат ли они, например, на параболе, а затем рассчитать аналогичный коэффициент соответственно (насколько хорошо подходит парабола)? Почему мы проверяем только на прямую линию?

Спасибо Абхишек С

1 Ответ

1 голос
/ 20 марта 2012

Ну, вот как определяется коэффициент корреляции Пирсона.

Это одна из возможных метрик сходства, и она действительно измеряет степень, в которой два набора предпочтений пропорционально движутся вместе.Если вы считаете, что это предположение подходит для вашего набора данных, это будет разумный показатель.Если нет, вы бы использовали другую метрику.

Вы могли бы реализовать метрику подобия, которая, конечно, определяет сходство другим способом.

Но на практике, почему здесь имеют смысл другие отношения?Сходство должно быть симметричным, и два набора предпочтений не могут быть пропорциональны квадрату другого.Я думаю, что разумно искать общие линейные отношения.

Конечно, существует множество других метрик сходства, возможно, лучше, которые не имеют ничего общего с оценкой таких отношений, как логарифмическая вероятностьсоотношение.

...