Является ли сжатие / распаковка данных gzip прозрачным в Hadoop / PIG? - PullRequest
1 голос
/ 27 марта 2012

Я где-то читал, что Hadoop имеет встроенную поддержку сжатия и распаковки, но я предполагаю, что речь идет о выводе mapper (путем установки некоторых свойств)?

Интересно, есть ли какие-либо конкретные функции загрузки / сохранения PIG, которые я могу использовать для чтения сжатых данных или вывода данных в сжатом виде?

1 Ответ

6 голосов
/ 28 марта 2012

PigStorage обрабатывает сжатый ввод, проверяя имена файлов:

  • *. Bz2 / * .bz - org.apache.pig.bzip2r.Bzip2TextInputFormat
  • Все остальное использует org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat - Это расширяет o.a.h.mapreduce.TextinputFormat, который может обрабатывать файлы .gz и zippy, если у вас установлены кодеки

Вывод обрабатывается через некоторые свойства:

  • output.compression.enabled - истина / ложь
  • output.compression.codec - имя класса используемого кодека (org.apache.hadoop.io.compress.GzipCodec для gzip)

Если вы чувствуете себя хорошо, копание в PigStorage.java может вас заинтересовать

...