Лучший способ сжатия паркетных файлов в HDFS - PullRequest
0 голосов
/ 04 мая 2020

Я пытаюсь сохранить свои данные для паркетных файлов в формате Hdf. Какой метод сжатия подойдет для таких типов файлов, которые уже были сжаты с помощью snappy?

Ответы [ 2 ]

1 голос
/ 05 мая 2020

Snappy - лучший выбор для сохранения сжатых данных. Если вы хотите добавить еще одну кодировку сжатия, это не поможет вам сэкономить место, поскольку они уже сжаты. Это только увеличит накладные расходы на распаковку, если вы захотите читать в будущем. Лучше go с самой быстрой компрессией.

0 голосов
/ 10 мая 2020

Более новые версии Parquet поддерживают сжатие Zstandard или Brotli. В зависимости от установленного уровня сжатия это должно улучшить степень сжатия и скорость по сравнению с мгновенным. Однако для этого необходимо убедиться, что все инструменты, которые вы используете, уже поддерживают Zstandard.

Аспект импорта Parquet заключается в том, что сжатие является частью формата, а фрагменты данных сжимаются индивидуально. Это обеспечивает очень эффективный доступ к сжатому файлу без необходимости его полной распаковки. Применение сжатия поверх существующего файла Parquet устранит эту возможность и серьезно снизит производительность.

...