Question

Нам нужно, как часть нашего продукта для запуска, вычислить «аналогичную пользовательскую функцию».И мы решили пойти со свиньей для этого.Я изучаю свинью уже несколько дней и понимаю, как она работает.Итак, для начала вот как выглядит файл журнала.

user        url             time
user1       http://someurl.com      1235416
user1       http://anotherlik.com       1255330
user2       http://someurl.com      1705012
user3       http://something.com        1705042
user3       http://someurl.com      1705042

Поскольку число пользователей и URL-адресов может быть огромным, мы не можем использовать здесь грубый подход, поэтому сначала нам нужно найти пользователякоторые имеют доступ по крайней мере к общему URL.

Алгоритм можно разделить следующим образом:

Найти всех пользователей, которые обращались к некоторым общим URL.
создать попарную комбинацию всех пользователей для каждого ресурса, к которому осуществляется доступ.
для каждой пары и URL-адреса, вычислите сходство этих пользователей: сходство зависит от временного интервала между доступом (поэтому нам нужно отслеживатьвремя).
Суммируйте для каждой пары-пары сходство.

вот что я написал до сих пор:

A = LOAD 'logs.txt' USING PigStorage('\t') AS (uid:bytearray, url:bytearray, time:long);
grouped_pos = GROUP A BY ($1);

Я знаюэто немного, но сейчас я не знаю, как создать пару или двигаться дальше.Так что любая помощь будет оценена.

Спасибо.

Jeff Hammerbacher · Answer 1 · 19 апреля 2011

Есть хорошая, подробная статья от IBM по совместной кластеризации с MapReduce, которая может быть полезна для вас.

Персонализация новостей Google paper описывает довольно простую реализацию хеширования с учетом локальных особенностей для решения той же проблемы.

Sean Timm · Answer 2 · 14 апреля 2011

Алгоритмы приведены в статьях по двудольным графикам запросов / URL.Вот несколько ссылок:

Запрос предложений с использованием времени удара Цяочжу Мей, Денйонг Чжоу, Кеннет Черч http://www -personal.umich.edu / ~ qmei / pub / cikm08-sugg.ppt

Случайные прогулки по графику кликов Ник Красвелл и Мартин Шуммер Июль 2007 http://research.microsoft.com/apps/pubs/default.aspx?id=65235

извлечь аналогичных пользователей из журналов, используя hadoop / pig

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

извлечь аналогичных пользователей из журналов, используя hadoop / pig

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы