Вы можете попытаться использовать совместный фильтр объект-объект вместо фильтра пользователь-объект. Устаревайте связанные пары (и пары с низким уровнем заболеваемости) с течением времени, поскольку в любом случае они в значительной степени не имеют значения в вашем случае использования.
Я немного поработал над премией Netflix в тот же день и быстро обнаружил, что могу значительно превзойти базовую модель в плане прогнозирования того, какие элементы были любимыми пользователями. К сожалению, поскольку это в основном модель ранга, а не скалярный предиктор, у меня не было значений RMSE для сравнения.
Я знаю, что этот метод работает, потому что я написал рабочую версию этой же системы. Мои ранние тесты показали, что, учитывая задачу, при которой 50% фильмов с самым высоким рейтингом пользователей были удалены, объектно-объектная модель правильно предсказала (то есть «заменила») примерно в 16 раз больше фактических фаворитов пользователей, чем базовый уклон одна модель. Плюс размер стола управляемый. Отсюда легко включить вес прибыльности против порядка сортировки и т. Д. В зависимости от вашего приложения.
Надеюсь, это поможет! У меня есть рабочая версия в производстве, но я все еще ищу бета-клиентов, которые будут грохнуть систему ... если у кого-нибудь будет время попробовать ее, я бы хотел услышать от вас.
Джеб Стоун, доктор философии
www.selloscope.com