Мы храним наши журналы на S3, и один из наших запросов (Pig) будет захватывать три разных типа журналов. Каждый тип журнала находится в наборах подкаталогов на основе типа / даты. Например:
/logs/<type>/<year>/<month>/<day>/<hour>/lots_of_logs_for_this_hour_and_type.log*
мой запрос хотел бы загрузить все три типа журналов за определенное время. Например:
type1 = load 's3:/logs/type1/2011/03/08' as ...
type2 = load 's3:/logs/type2/2011/03/08' as ...
type3 = load 's3:/logs/type3/2011/03/08' as ...
result = join type1 ..., type2, etc...
мои запросы будут выполняться для всех этих журналов.
Какой самый эффективный способ справиться с этим?
- Нужно ли использовать расширение bash-скрипта? Не уверен, что это работает с несколькими каталогами, и я сомневаюсь, что было бы эффективно (или даже возможно), если бы было загружено 10 тыс. Журналов.
- Создаем ли мы сервис для объединения всех журналов и отправки их непосредственно в hdfs?
- Пользовательские импортеры Java / Python?
- Другие мысли?
Если бы вы могли оставить пример кода, если это уместно, это было бы полезно.
Спасибо