Я хотел бы знать, как получить данные из агрегированных журналов? Вот что у меня есть:
- около 30 ГБ ежедневно несжатых данных журнала, загружаемых в HDFS (и скоро это увеличится до 100 ГБ)
Это моя идея:
- каждую ночь эти данные обрабатываются свиньей
- логи читаются, разделяются, и пользовательский UDF извлекает данные вроде: timestamp
, url
, user_id
(допустим, это все, что мне нужно)
- из записи журнала и загружает ее в HBase (данные журнала будут храниться бесконечно)
Тогда, если я хочу узнать, какие пользователи видели конкретную страницу в заданном временном интервале, я могу быстро запросить HBase, не сканируя все данные журнала с каждым запросом (и я хочу быстрые ответы - минуты приемлемы). И одновременно будет выполняться несколько запросов.
Что вы думаете об этом рабочем процессе? Как вы думаете, загрузка этой информации в HBase будет иметь смысл? Какие есть другие варианты и как они соотносятся с моим решением?
Я ценю все комментарии / вопросы и ответы. Заранее спасибо.