Реализация крупномасштабной аналитики файла журнала - PullRequest
4 голосов
/ 27 апреля 2009

Может ли кто-нибудь указать мне ссылку или предоставить общий обзор того, как такие компании, как Facebook, Yahoo, Google и т. Д., Выполняют крупномасштабный (например, мульти-ТБ) анализ журналов, который они выполняют для операций и особенно веб-аналитики ?

Концентрируясь на веб-аналитике, в частности, меня интересуют два тесно связанных аспекта: производительность запросов и хранение данных.

Я знаю, что общий подход состоит в том, чтобы использовать map limit для распределения каждого запроса по кластеру (например, с помощью Hadoop). Однако какой формат хранения наиболее эффективен? Это данные журнала, поэтому мы можем предположить, что каждое событие имеет метку времени, и что в целом данные структурированы, а не разрежены. Большинство запросов веб-аналитики включают анализ фрагментов данных между двумя произвольными временными метками и извлечение совокупной статистики или аномалий в этих данных.

Будет ли ориентированная на столбцы БД, такая как Big Table (или HBase), эффективным способом хранения и, что более важно, запроса таких данных? Работает ли тот факт, что вы выбираете подмножество строк (на основе метки времени), против базовой предпосылки этого типа хранилища? Было бы лучше хранить его как неструктурированные данные, например. обратный индекс?

Ответы [ 3 ]

5 голосов
/ 28 апреля 2009

К сожалению, нет единого размера, подходящего для всех.

В настоящее время я использую Cascading, Hadoop, S3 и Aster Data для обработки концертов 100 в день через поэтапный конвейер внутри AWS.

Данные Aster используются для запросов и отчетов, поскольку они предоставляют интерфейс SQL для массивных наборов данных, очищаемых и анализируемых каскадными процессами в Hadoop. Используя каскадные интерфейсы JDBC, загрузка Aster Data - довольно тривиальный процесс.

Помните, что такие инструменты, как HBase и Hypertable, являются хранилищами ключей / значений, поэтому не выполняйте специальные запросы и объединения без помощи приложения MapReduce / Cascading для выполнения внешних соединений, что очень полезно шаблон.

в полном раскрытии, я разработчик проекта Cascading.

http://www.asterdata.com/

http://www.cascading.org/

5 голосов
/ 19 июня 2009

В книге Hadoop: исчерпывающее руководство О'Рейли есть глава, в которой обсуждается, как hadoop используется в двух реальных компаниях.

http://my.safaribooksonline.com/9780596521974/ch14

4 голосов
/ 27 апреля 2009

Взгляните на статью Интерпретация данных: параллельный анализ с Sawzall от Google. Это документ об инструменте, который Google использует для анализа журналов.

...