Привет всем, только начинайте работать с hadoop и любопытно, как лучше всего было бы подсчитать уникальных посетителей в mapreduce, если бы ваши лог-файлы выглядели так ...
DATE siteID action username
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview tom
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview bob
05-05-2010 siteA pageview mike
и для каждого сайта, который вы хотелиузнать уникальных посетителей для каждого сайта?
Я думал, что маппер выдаст siteID \ t username, а редуктор сохранит set () уникальных имен пользователей для каждого ключа, а затем выдаст длину этого набора.Однако это потенциально может хранить миллионы имен пользователей в памяти, что кажется неправильным.У кого-нибудь есть способ получше?
Кстати, я использую потоковую передачу Python
спасибо