Apache Mahout + Pearson Correlation игнорирует пользователей с одинаковыми предпочтениями для каждого элемента - PullRequest
3 голосов
/ 15 октября 2011

Я использую Mahout с алгоритмом корреляции Пирсона для сравнения и поиска похожих пользователей на основе их предпочтений по нескольким элементам.Проблема, с которой я сталкиваюсь, заключается в том, что Mahout и / или Pearson игнорируют пользователей, которые выбирают одинаковые предпочтения для каждого элемента.Кто-нибудь знает, есть ли способ настроить Mahout, чтобы НЕ игнорировать людей, которые выбирают одно и то же значение предпочтения для каждого элемента.

1 Ответ

6 голосов
/ 15 октября 2011

Это не вопрос конфигурации.В этом случае корреляция Пирсона не определена, поэтому между ними не может быть вычислено сходство с использованием этой метрики.

По существу - Пирсон - это отношение ковариации двух серий предпочтений к произведению их стандартных отклонений.Но когда одна или обе последовательности идентичны, стандартное отклонение равно 0, как и ковариация, поэтому корреляция равна 0 / 0.

(Этот и несколько других вопросов Пирсона рассматриваются в главе 4 Mahout в действии , и я являюсь автором этой части книги и кода.)

...