Может ли кто-нибудь указать мне ссылку или предоставить общий обзор того, как такие компании, как Facebook, Yahoo, Google и т. Д., Выполняют крупномасштабный (например, мульти-ТБ) анализ журналов, который они выполняют для операций и особенно веб-аналитики ?
Концентрируясь на веб-аналитике, в частности, меня интересуют два тесно связанных аспекта: производительность запросов и хранение данных.
Я знаю, что общий подход состоит в том, чтобы использовать map limit для распределения каждого запроса по кластеру (например, с помощью Hadoop). Однако какой формат хранения наиболее эффективен? Это данные журнала, поэтому мы можем предположить, что каждое событие имеет метку времени, и что в целом данные структурированы, а не разрежены. Большинство запросов веб-аналитики включают анализ фрагментов данных между двумя произвольными временными метками и извлечение совокупной статистики или аномалий в этих данных.
Будет ли ориентированная на столбцы БД, такая как Big Table (или HBase), эффективным способом хранения и, что более важно, запроса таких данных? Работает ли тот факт, что вы выбираете подмножество строк (на основе метки времени), против базовой предпосылки этого типа хранилища? Было бы лучше хранить его как неструктурированные данные, например. обратный индекс?