Этот вопрос относится к части Рекомендации Apache Mahout, в которой используется коэффициент Пирсона для измерения сходства между пользователями. Насколько я понимаю, вот как коэффициент Пирсона измеряет сходство между пользователями.
Допустим, 2 пользователя оценили 5 элементов a, b, c, d и e. Скажем, их рейтинги: a1, b1, c1, d1, e1 и a2, b2, c2, d2, e2. Теперь коэффициент Пирсона дает оценку соответствия наименьших квадратов прямой линии с учетом точек (a1, a2), (b1, b2), (c1, c2), (d1, d2) и (e1, e2). Я понимаю, что главная цель, стоящая за этим (основываясь на моем чтении в другом месте), заключается в том, что вы хотите показать точность предсказания рейтинга другого пользователя для любого объекта с учетом рейтинга текущего пользователя. Теперь, если точки лежат на прямой линии, это означает, что вы можете предсказать рейтинг другого человека с учетом рейтинга текущего пользователя. Таким образом, коэффициент будет равен 1. С другой стороны, если точки не лежат на прямой линии, наименьшее квадратное совпадение представляется по шкале от -1 до 1, 0 в том смысле, что они полностью смещены и есть вообще никаких отношений, и 1 / -1 идеально подходит.
Теперь мой вопрос: почему только прямая линия? Почему мы не можем решить, лежат ли они, например, на параболе, а затем рассчитать аналогичный коэффициент соответственно (насколько хорошо подходит парабола)? Почему мы проверяем только на прямую линию?
Спасибо
Абхишек С