Во-первых, у меня нет внутренних знаний о двигателе рекомендаций S / U.Что я знаю, я узнал из этой темы за последние несколько лет, а также из изучения общедоступных источников (включая собственные сообщения StumbleUpon на сайте их компании и в их блоге) и, конечно, как пользователь StumbleUpon.
Я не нашел ни одного источника, авторитетного или какого-либо другого, который был бы настолько близок к высказыванию «вот как работает механизм рекомендаций S / U», тем не менее, учитывая, что это, возможно, самый успешный механизм рекомендаций за всю историю- статистика безумная, S / U составляет более половины всех рефералов в Интернете , и значительно больше, чем Facebook, несмотря на то, что доля зарегистрированных пользователей Facebook составляет (800 миллионов против 15 миллионов);Более того, S / U на самом деле не является сайтом с механизмом рекомендаций, как, например, Amazon.com, вместо этого сам сайт является механизмом рекомендаций - среди довольно значительных дискуссий и сплетенНебольшая группа людей, которые создают «Двигатели рекомендаций» так, что, если вы проанализируете это, я думаю, что можно надежно разделить типы используемых алгоритмов, источники данных, предоставленные им, и то, как они связаны в рабочем потоке данных.
Приведенное ниже описание относится к моей диаграмме внизу.Каждый шаг в потоке данных обозначается римской цифрой.Мое описание продолжается в обратном направлении - начиная с момента, когда URL-адрес доставляется пользователю, следовательно, при фактическом использовании шаг I происходит последним, а шаг V - первым.
овалы лососевого цвета => источники данных
голубые прямоугольники => алгоритмы прогнозирования
I.Веб-страница, рекомендованная пользователю S / U, является последним шагом в многоступенчатом потоке
II.Механизм рекомендаций StumbleUpon поставляется с данными (веб-страницами) из трех различных источников:
web страниц, помеченных тегами тем , соответствующих предварительно определенным процентам s (темы, которые пользователь указал в качестве интересов, и которые можно просмотреть / изменить, нажав вкладку «Настройки» в верхнем правом углу страницы авторизованного пользователя);
Социально одобренные страницы (* страницы понравились Друзья этого пользователя *);и
Одобренные пользователями страницы (* страницы понравились аналогичным пользователям *);
III.Эти источники, в свою очередь, являются результатами, возвращаемыми алгоритмами прогнозирования StumbleUpon ( Похожие пользователи относятся к пользователям в одном кластере, как определено Алгоритм кластеризации , который, возможно, является k-means).
IV.Данные, используемые для обучения Clustering Engine , состоят из веб-страниц с комментариями пользователей
V.Этот набор данных (веб-страницы, оцененные пользователями StumbleUpon) также используется для обучения контролируемого классификатора ( например, ., Многослойный персептрон, машина опорных векторов).классификатор - это метка класса, примененная к веб-странице, еще не оцененной пользователем.
Единственный лучший источник, который я нашел, который обсуждал механизм рекомендаций SU в контексте других рекомендательных систем, это этот пост BetaBeat .