Я использую неявное предпочтение mllib реализация совместной фильтрации для генерации рекомендаций по продуктам в электронной торговле на основе Netflix Prizeалгоритм выигрыша .Я попробовал два варианта (различающихся по способу получения рейтинга) -
- rating = no.пользователь купил элемент
- рейтинг = (2 раза (количество раз, когда пользователь купил элемент) + количество раз, когда пользователь просматривал элемент) / 3 (то есть 2: 1 весов между купленным ирассматриваемые критерии)
Производительность (MAP, Recall и Precision) снижается с 1 до 2, что нелогично, так как плотность матрицы возрастает, и ожидается, что 2-й показатель будет лучше.Одним из наблюдений является то, что количество элементов (дискретные значения) в столбце рейтинга увеличивается при втором подходе, и поэтому я хочу понять, могло ли это привести к снижению производительности?