Как получить информацию из агрегированных данных блогов, как это сделать? - PullRequest
0 голосов
/ 29 июля 2010

Я хотел бы знать, как получить данные из агрегированных журналов? Вот что у меня есть:
- около 30 ГБ ежедневно несжатых данных журнала, загружаемых в HDFS (и скоро это увеличится до 100 ГБ)
Это моя идея:
- каждую ночь эти данные обрабатываются свиньей
- логи читаются, разделяются, и пользовательский UDF извлекает данные вроде: timestamp, url, user_id (допустим, это все, что мне нужно)
- из записи журнала и загружает ее в HBase (данные журнала будут храниться бесконечно)

Тогда, если я хочу узнать, какие пользователи видели конкретную страницу в заданном временном интервале, я могу быстро запросить HBase, не сканируя все данные журнала с каждым запросом (и я хочу быстрые ответы - минуты приемлемы). И одновременно будет выполняться несколько запросов.

Что вы думаете об этом рабочем процессе? Как вы думаете, загрузка этой информации в HBase будет иметь смысл? Какие есть другие варианты и как они соотносятся с моим решением? Я ценю все комментарии / вопросы и ответы. Заранее спасибо.

1 Ответ

0 голосов
/ 29 июля 2010

С Hadoop вы всегда делаете одну из двух вещей (обработка или запрос).

Для того, что вы ищете, я бы предложил использовать HIVE http://hadoop.apache.org/hive/. Вы можете взять свои данные, а затем создать задание M / R для обработки и передачи этих данных так, как вам нравится в HIVEстолы.Оттуда (вы можете даже разделить данные, так как это может быть целесообразно для скорости, чтобы не смотреть на данные, которые не требуются, как вы говорите).Отсюда вы можете запросить результаты ваших данных, как вам нравится.Вот очень хороший онлайн-учебник http://www.cloudera.com/videos/hive_tutorial

Есть много способов решить эту проблему, но похоже, что HBase немного излишним, если вы не хотите настроить весь сервер, необходимый для его работы, в качестве упражнения дляузнать его.HBase было бы хорошо, если бы тысячи людей одновременно искали информацию.

Возможно, вы захотите взглянуть на FLUME, новый сервер импорта от Cloudera.Он доставит ваши файлы из любого места прямо в HDFS http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/

...