Я хотел бы обработать журналы доступа, которые Amazon CloudFront создает с помощью Amazon Elastic MapReduce.
Мне просто нужна простая статистика о том, сколько раз разные файлы загружались из облачного фронта, поэтому я подумал, что для этого нужно написать простой PIG-скрипт.тот облачный фронт пишет логи gzipped и насколько я знаю, я не могу прочитать .gz на свинье?
Есть предложения о том, как мне это сделать?Я очень новичок в упругом mapreduce, поэтому любые советы о том, как структурировать такую работу, приветствуются.