Разработка веб-аналитики с Hadoop - PullRequest
2 голосов
/ 02 ноября 2011

Я хочу разработать платформу веб-аналитики для создания агрегированных данных о веб-трафике (просмотрах страниц, посещениях, посетителях и т. Д.) Путем анализа журналов доступа Apache.

Могу ли я делать это только с Hadoop иЧистая карта / Сокращение заданий?

Излишне ли использовать Hive?

Ответы [ 4 ]

4 голосов
/ 02 ноября 2011

Hive или Pig - это уровень абстракции над заданиями Hadoop MapReduce, упрощающий создание / запуск заданий MR. Скрипты Pig и Hive просты в написании и автоматически конвертируются в MR Jobs.

Как и в случае любого уровня абстракции, сценарии Pig и Hive занимают значительно меньше времени для написания, чем MR Job в Java, но это немного накладные расходы. По мере того, как Свинья и Улей становятся все более зрелыми, этот разрыв сокращается.

Кевин количественно оценил свой опыт, он обнаружил, что обычно сценарий Pig составляет 5% кода нативной карты / редукции, написанного примерно в 5% времени. Однако для выполнения запросов обычно требуется от 110 до 150% времени, которое потребовалось бы для задания родного сопоставления / сокращения.

Подводя итог, Hive не обязателен, но он облегчит создание / запуск заданий MR для конечного пользователя с небольшими накладными расходами.

2 голосов
/ 27 ноября 2012

Извлечение Datameer , у них есть набор готовых функций для анализа кликов, встроенных в Hadoop ... Они также поддерживают Google Analytics, если вы уже используете этот инструмент.

1 голос
/ 11 ноября 2011

Я думаю, что куст является наиболее подходящей платформой для такого рода задач, поскольку большинство агрегатов естественным образом отображаются в группы с помощью SQL.
Что вам может понадобиться - это расширить Hive с помощью двух вещей:
а) SerDe для чтения вашего формата журналов.
б) IP2Country UDF (пользовательская функция) для группировки по вашим журналам по стране.

Я не думаю, что имеет много смысла создавать ванильные рабочие места MR для этой задачи. Я бы сформулировал, что задачи, которые обычно решаются с помощью RDBMS, следует сначала попробовать с помощью Hive.

0 голосов
/ 10 января 2014

Если вы решите использовать пакет Hadoop и Hive или Pig для решения вашей проблемы, это может сэкономить некоторое время для загрузки пакета Cloudera или IBm Hadoop. Они уже поставляются со всей инфраструктурой Hadoop, включая Pig и Hive, и обычно предоставляют пошаговый процесс установки веб-интерфейса.

Их начальная версия бесплатна:

http://www -01.ibm.com / программное обеспечение / данные / инфосфера / biginsights / http://www.cloudera.com/content/support/en/downloads.html

Если вы не хотите тратить так много времени на сам фреймворк, это может быть хорошим решением. Надеюсь, поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...