Как мне распаковать поток gzip с помощью zlib? - PullRequest
100 голосов
/ 03 декабря 2009

Файлы формата Gzip (например, созданные с помощью программы gzip) используют алгоритм сжатия "deflate", который является тем же алгоритмом сжатия, что и zlib . Однако при использовании zlib для раздувания сжатого файлом gzip библиотека возвращает Z_DATA_ERROR.

Как я могу использовать zlib для распаковки gzip-файла?

Ответы [ 4 ]

108 голосов
/ 03 декабря 2009

Чтобы распаковать файл формата gzip с помощью zlib, вызовите inflateInit2 с параметром windowBits как 16+MAX_WBITS, например:

inflateInit2(&stream, 16+MAX_WBITS);

Если вы этого не сделаете, zlib будет жаловаться на плохой формат потока. По умолчанию zlib создает потоки с заголовком zlib, а на inflate не распознает другой заголовок gzip, если вы не укажете это. Хотя это задокументировано начиная с версии 1.2.1 файла заголовка zlib.h, его нет в руководстве zlib . Из заголовочного файла:

windowBits также может быть больше 15 для необязательного декодирования gzip. добавлять От 32 до windowBits для включения декодирования zlib и gzip с автоматическим заголовком обнаружения или добавьте 16 для декодирования только формата gzip (формат zlib вернуть Z_DATA_ERROR). Если поток gzip декодируется, strm->adler crc32 вместо adler32.

90 голосов
/ 11 марта 2014

питон

zlib библиотека поддерживает :

Модуль python zlib также будет поддерживать их.

выбор окна битов

Но zlib может распаковать все эти форматы:

  • для (де-) сжатия deflate формат, используйте wbits = -zlib.MAX_WBITS
  • для (де-) сжатия zlib формат, используйте wbits = zlib.MAX_WBITS
  • для (де-) сжатия gzip формат, используйте wbits = zlib.MAX_WBITS | 16

См. Документацию в http://www.zlib.net/manual.html#Advanced (раздел inflateInit2)

примеры

данные испытаний:

>>> deflate_compress = zlib.compressobj(9, zlib.DEFLATED, -zlib.MAX_WBITS)
>>> zlib_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS)
>>> gzip_compress = zlib.compressobj(9, zlib.DEFLATED, zlib.MAX_WBITS | 16)
>>> 
>>> text = '''test'''
>>> deflate_data = deflate_compress.compress(text) + deflate_compress.flush()
>>> zlib_data = zlib_compress.compress(text) + zlib_compress.flush()
>>> gzip_data = gzip_compress.compress(text) + gzip_compress.flush()
>>> 

очевидный тест для zlib:

>>> zlib.decompress(zlib_data)
'test'

тест для deflate:

>>> zlib.decompress(deflate_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(deflate_data, -zlib.MAX_WBITS)
'test'

тест для gzip:

>>> zlib.decompress(gzip_data)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
zlib.error: Error -3 while decompressing data: incorrect header check
>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|16)
'test'

данные также совместимы с gzip модулем:

>>> import gzip
>>> import StringIO
>>> fio = StringIO.StringIO(gzip_data)
>>> f = gzip.GzipFile(fileobj=fio)
>>> f.read()
'test'
>>> f.close()

автоматическое определение заголовка (zlib или gzip)

добавление 32 к windowBits вызовет обнаружение заголовка

>>> zlib.decompress(gzip_data, zlib.MAX_WBITS|32)
'test'
>>> zlib.decompress(zlib_data, zlib.MAX_WBITS|32)
'test'

с использованием gzip вместо

Для данных gzip с заголовком gzip вы можете напрямую использовать модуль gzip; но помните, что под капотом , gzip используется zlib.

fh = gzip.open('abc.gz', 'rb')
cdata = fh.read()
fh.close()
2 голосов
/ 02 мая 2013

Структура zlib и gzip различна. zlib использует RFC 1950 , а gzip использует RFC 1952 , поэтому имеют разные заголовки, но остальные имеют одинаковую структуру и следуют RFC 1951 .

0 голосов
/ 28 февраля 2018

Node.js

const { gunzip } = require('zlib');

const decompressGzip = compressedData =>
  new Promise((resolve, reject) => {
    gunzip(compressedData, (error, decompressedData) => {
      if (error) return reject(error);
      return resolve(decompressedData);
    });
  });

module.exports = { decompressGzip };

Вы устанавливаете zlib используя пряжу

yarn add zlib
...