Question

Я хочу разработать платформу веб-аналитики для создания агрегированных данных о веб-трафике (просмотрах страниц, посещениях, посетителях и т. Д.) Путем анализа журналов доступа Apache.

Могу ли я делать это только с Hadoop иЧистая карта / Сокращение заданий?

Излишне ли использовать Hive?

Praveen Sripati · Answer 1 · 02 ноября 2011

Hive или Pig - это уровень абстракции над заданиями Hadoop MapReduce, упрощающий создание / запуск заданий MR. Скрипты Pig и Hive просты в написании и автоматически конвертируются в MR Jobs.

Как и в случае любого уровня абстракции, сценарии Pig и Hive занимают значительно меньше времени для написания, чем MR Job в Java, но это немного накладные расходы. По мере того, как Свинья и Улей становятся все более зрелыми, этот разрыв сокращается.

Кевин количественно оценил свой опыт, он обнаружил, что обычно сценарий Pig составляет 5% кода нативной карты / редукции, написанного примерно в 5% времени. Однако для выполнения запросов обычно требуется от 110 до 150% времени, которое потребовалось бы для задания родного сопоставления / сокращения.

Подводя итог, Hive не обязателен, но он облегчит создание / запуск заданий MR для конечного пользователя с небольшими накладными расходами.

Joel · Answer 2 · 27 ноября 2012

Извлечение Datameer , у них есть набор готовых функций для анализа кликов, встроенных в Hadoop ... Они также поддерживают Google Analytics, если вы уже используете этот инструмент.

David Gruzman · Answer 3 · 11 ноября 2011

Я думаю, что куст является наиболее подходящей платформой для такого рода задач, поскольку большинство агрегатов естественным образом отображаются в группы с помощью SQL.
Что вам может понадобиться - это расширить Hive с помощью двух вещей:
а) SerDe для чтения вашего формата журналов.
б) IP2Country UDF (пользовательская функция) для группировки по вашим журналам по стране.

Я не думаю, что имеет много смысла создавать ванильные рабочие места MR для этой задачи. Я бы сформулировал, что задачи, которые обычно решаются с помощью RDBMS, следует сначала попробовать с помощью Hive.

Renata · Answer 4 · 10 января 2014

Если вы решите использовать пакет Hadoop и Hive или Pig для решения вашей проблемы, это может сэкономить некоторое время для загрузки пакета Cloudera или IBm Hadoop. Они уже поставляются со всей инфраструктурой Hadoop, включая Pig и Hive, и обычно предоставляют пошаговый процесс установки веб-интерфейса.

Их начальная версия бесплатна:

http://www -01.ibm.com / программное обеспечение / данные / инфосфера / biginsights / http://www.cloudera.com/content/support/en/downloads.html

Если вы не хотите тратить так много времени на сам фреймворк, это может быть хорошим решением. Надеюсь, поможет!

Разработка веб-аналитики с Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разработка веб-аналитики с Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы