Apache Pig v0.7 может читать сжатые файлы без особых усилий с моей стороны, например:
MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url);
Я могу обработать эти данные и вывести их на диск, все в порядке:
PerUser = GROUP MyData BY user;
UserCount = FOREACH PerUser GENERATE group AS user, COUNT(MyData) AS count;
STORE UserCount INTO '/tmp/usercount' USING PigStorage(',');
Но выходной файл не сжат:
/tmp/usercount/part-r-00000
Есть ли способ указать команде STORE
выводить содержимое в формате gzip?Обратите внимание, что в идеале я хотел бы получить ответ, применимый к Pig 0.6, поскольку я хочу использовать Amazon Elastic MapReduce;но если есть решение для любой версии Pig, я бы хотел услышать это.