Совместная фильтрация новостных статей или постов в блоге - PullRequest
2 голосов
/ 30 марта 2012

Известно, как коллаборативная фильтрация (CF) используется для рекомендаций фильмов, музыки, книг.В статье « Совместное тематическое моделирование для рекомендации научных статей », среди прочего, авторы показывают пример совместной фильтрации, примененной к ~ 5500 пользователям и ~ 17000 научных статей.С ~ 200 000 пар пользовательских элементов матрица пользовательских статей явно очень разрежена.

Что если вы выполните совместную фильтрацию с матричной факторизацией , скажем, для всех новостных статей, опубликованных в Twitter?Матрица будет еще более разреженной (чем в случае научных статей), что делает CF не очень применимым.Конечно, мы можем провести некоторый контент-анализ (с учетом текста статьи), но это не моя цель.Или мы можем потенциально ограничить наше временное окно (скажем, сосредоточиться на всех новостных статьях, опубликованных за последний день или неделю), чтобы сделать матрицу пользовательских статей более плотной.Есть еще идеи как бороться с тем что матрица очень скудная?Каковы результаты исследований в области CF для рекомендаций новостных статей?Заранее большое спасибо!

1 Ответ

4 голосов
/ 21 апреля 2012

Вы можете попытаться использовать совместный фильтр объект-объект вместо фильтра пользователь-объект. Устаревайте связанные пары (и пары с низким уровнем заболеваемости) с течением времени, поскольку в любом случае они в значительной степени не имеют значения в вашем случае использования.

Я немного поработал над премией Netflix в тот же день и быстро обнаружил, что могу значительно превзойти базовую модель в плане прогнозирования того, какие элементы были любимыми пользователями. К сожалению, поскольку это в основном модель ранга, а не скалярный предиктор, у меня не было значений RMSE для сравнения.

Я знаю, что этот метод работает, потому что я написал рабочую версию этой же системы. Мои ранние тесты показали, что, учитывая задачу, при которой 50% фильмов с самым высоким рейтингом пользователей были удалены, объектно-объектная модель правильно предсказала (то есть «заменила») примерно в 16 раз больше фактических фаворитов пользователей, чем базовый уклон одна модель. Плюс размер стола управляемый. Отсюда легко включить вес прибыльности против порядка сортировки и т. Д. В зависимости от вашего приложения.

Надеюсь, это поможет! У меня есть рабочая версия в производстве, но я все еще ищу бета-клиентов, которые будут грохнуть систему ... если у кого-нибудь будет время попробовать ее, я бы хотел услышать от вас.

Джеб Стоун, доктор философии

www.selloscope.com

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...