Question

Привет всем, только начинайте работать с hadoop и любопытно, как лучше всего было бы подсчитать уникальных посетителей в mapreduce, если бы ваши лог-файлы выглядели так ...

DATE       siteID  action   username
05-05-2010 siteA   pageview jim
05-05-2010 siteB   pageview tom
05-05-2010 siteA   pageview jim
05-05-2010 siteB   pageview bob
05-05-2010 siteA   pageview mike

и для каждого сайта, который вы хотелиузнать уникальных посетителей для каждого сайта?

Я думал, что маппер выдаст siteID \ t username, а редуктор сохранит set () уникальных имен пользователей для каждого ключа, а затем выдаст длину этого набора.Однако это потенциально может хранить миллионы имен пользователей в памяти, что кажется неправильным.У кого-нибудь есть способ получше?

Кстати, я использую потоковую передачу Python

спасибо

tzaman · Answer 1 · 22 мая 2010

Вы можете сделать это как 2-этапную операцию:

Первый шаг, испустите (username => siteID), и пусть редуктор просто свернет несколько вхождений siteID с помощью set - так как у вас обычно будет гораздо меньше сайтов, чем у пользователей, это должно быть хорошо.

Затем на втором шаге вы можете запустить (siteID => username) и выполнить простой подсчет, поскольку дубликаты были удалены.

Niels Basjes · Answer 2 · 26 мая 2010

Мой подход подобен тому, что дал цаман с небольшим поворотом

Вывод карты: (имя пользователя, siteid) => ("")
уменьшить вывод: (siteid) => (1)
карта: удостоверение личности
уменьшить: longsumreducer (т.е. просто суммировать)

Обратите внимание, что первое сокращение не должно проходить ни одну из записей, которые будут представлены. Вы можете просто проверить ключ и произвести вывод.

НТН

SquareCog · Answer 3 · 24 мая 2010

Используйте вторичную сортировку для сортировки по идентификатору пользователя. Таким образом, вам не нужно иметь что-либо в памяти - просто передавайте данные и увеличивайте свой счетчик каждый раз, когда вы видите изменение значения для определенного идентификатора сайта.

Вот некоторая документация .

Datageek · Answer 4 · 07 сентября 2011

Часто быстрее использовать HiveQL для сортировки множества простых задач. Hive переведет ваши запросы в Hadoop MapReduce. В этом случае вы можете использовать

SELECT COUNT(DISTINCT username) FROM logviews

Более подробный пример вы можете найти здесь: http://www.dataminelab.com/blog/calculating-unique-visitors-in-hadoop-and-hive/

Какой лучший способ подсчета уникальных посетителей с Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой лучший способ подсчета уникальных посетителей с Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы