Какие типы сжатия поддерживаются в паркете? - PullRequest
0 голосов
/ 06 июля 2018

Я писал данные на Hadoop и куст в формате паркета, используя спарк. Я хочу включить сжатие, но я могу найти только 2 типа сжатия - snappy и Gzip, используемые в большинстве случаев. Поддерживает ли паркет любое другое сжатие, такое как Deflate и lzo?

Ответы [ 2 ]

0 голосов
/ 07 июля 2018

Поддерживаемые типы сжатия для Apache Parquet указаны в репозитории parquet-format: https://github.com/apache/parquet-format/blob/54e6133e887a6ea90501ddd72fff5312b7038a7c/src/main/thrift/parquet.thrift#L461

Snappy и Gzip являются наиболее часто используемыми и поддерживаются всеми реализациями. LZ4 и ZSTD дают лучшие результаты первых двух, но являются довольно новым дополнением к формату, поэтому они поддерживаются только в более новых версиях некоторых реализаций.

0 голосов
/ 06 июля 2018

Из исходного кода Spark, ветвь 2.1 :

Вы можете установить следующие специфичные для паркета опции для записи Паркетные пилки:

compression (по умолчанию это значение, указанное в spark.sql.parquet.compression.codec): кодек сжатия, используемый при сохранение в файл. Это может быть одним из известных без учета регистра сокращений имена (none, snappy, gzip и lzo).
Это будет переопределения spark.sql.parquet.compression.codec
...

...