Архитектура и основные компоненты механизма рекомендаций StumbleUpon - PullRequest
9 голосов
/ 19 сентября 2011

Хотелось бы узнать, как stumbleupon рекомендует статьи своим пользователям ?.

Использует ли она нейронную сеть или какие-то алгоритмы машинного обучения, или она на самом деле рекомендует статьи на основе того, что «понравилось» пользователю, или это просто рекомендации на основе тегов в области интересов ?.Я имею в виду теги, используя что-то вроде совместной фильтрации на основе элементов и т. Д.

1 Ответ

14 голосов
/ 22 сентября 2011

Во-первых, у меня нет внутренних знаний о двигателе рекомендаций S / U.Что я знаю, я узнал из этой темы за последние несколько лет, а также из изучения общедоступных источников (включая собственные сообщения StumbleUpon на сайте их компании и в их блоге) и, конечно, как пользователь StumbleUpon.

Я не нашел ни одного источника, авторитетного или какого-либо другого, который был бы настолько близок к высказыванию «вот как работает механизм рекомендаций S / U», тем не менее, учитывая, что это, возможно, самый успешный механизм рекомендаций за всю историю- статистика безумная, S / U составляет более половины всех рефералов в Интернете , и значительно больше, чем Facebook, несмотря на то, что доля зарегистрированных пользователей Facebook составляет (800 миллионов против 15 миллионов);Более того, S / U на самом деле не является сайтом с механизмом рекомендаций, как, например, Amazon.com, вместо этого сам сайт является механизмом рекомендаций - среди довольно значительных дискуссий и сплетенНебольшая группа людей, которые создают «Двигатели рекомендаций» так, что, если вы проанализируете это, я думаю, что можно надежно разделить типы используемых алгоритмов, источники данных, предоставленные им, и то, как они связаны в рабочем потоке данных.

Приведенное ниже описание относится к моей диаграмме внизу.Каждый шаг в потоке данных обозначается римской цифрой.Мое описание продолжается в обратном направлении - начиная с момента, когда URL-адрес доставляется пользователю, следовательно, при фактическом использовании шаг I происходит последним, а шаг V - первым.

овалы лососевого цвета => источники данных

голубые прямоугольники => алгоритмы прогнозирования


I.Веб-страница, рекомендованная пользователю S / U, является последним шагом в многоступенчатом потоке

II.Механизм рекомендаций StumbleUpon поставляется с данными (веб-страницами) из трех различных источников:

  • web страниц, помеченных тегами тем , соответствующих предварительно определенным процентам s (темы, которые пользователь указал в качестве интересов, и которые можно просмотреть / изменить, нажав вкладку «Настройки» в верхнем правом углу страницы авторизованного пользователя);

  • Социально одобренные страницы (* страницы понравились Друзья этого пользователя *);и

  • Одобренные пользователями страницы (* страницы понравились аналогичным пользователям *);

III.Эти источники, в свою очередь, являются результатами, возвращаемыми алгоритмами прогнозирования StumbleUpon ( Похожие пользователи относятся к пользователям в одном кластере, как определено Алгоритм кластеризации , который, возможно, является k-means).

IV.Данные, используемые для обучения Clustering Engine , состоят из веб-страниц с комментариями пользователей

V.Этот набор данных (веб-страницы, оцененные пользователями StumbleUpon) также используется для обучения контролируемого классификатора ( например, ., Многослойный персептрон, машина опорных векторов).классификатор - это метка класса, примененная к веб-странице, еще не оцененной пользователем.

Единственный лучший источник, который я нашел, который обсуждал механизм рекомендаций SU в контексте других рекомендательных систем, это этот пост BetaBeat .

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...