Свинья не может создавать файлы .bz2, но создает файлы .deflate - PullRequest
0 голосов
/ 24 сентября 2018

Вот сценарий PIG, который я использую для чтения, фильтрации и сжатия данных в bzip2, но вместо .bz2 я получаю файлы .deflate.

set output.compression.enabled true;
set output.compression.codec org.apache.hadoop.io.compress.BZip2Codec;
inputFile = LOAD '/dl/myfolder/' using PigStorage('|') AS (col1,col2,col3,col4,col5,clo6,col7,col8,col9,col10);
filteredFile = FILTER inputFile BY col7 is not null;
store filteredFile into '/dl/myfolder/compressdata/' USING PigStorage('|');

Output file /dl/myfolder/compressdata/part-m-00000.deflate

Спасибо за вашу помощь ..

Ответы [ 2 ]

0 голосов
/ 31 октября 2018

Сожаление не может обновиться, так как с этой проблемой мы столкнулись при обновлении с pivotal до hortonworks.И обнаружил, что mapreduce.map.output.compress = true mapreduce.output.fileoutputformat.compress = true Это переопределяет формат вывода в сеансе и всегда сжимает.После установки их в false мы получили желаемый результат

Спасибо Кодзи / Джону за ваше время и ценные данные.

Коджи за ваше предложение, что у нас более старый дизайн, и все использует bzip2, поэтому мы изменили на Lzoбудет возможно в следующем обновлении:)

0 голосов
/ 09 октября 2018

Пожалуйста, измените имя выходного каталога на bz2 (или bz).

store filteredFile into '/dl/myfolder/compressdata.bz2/' USING PigStorage('|');
...