Question

Имеется сжатый файл, написанный на платформе hadoop, в одном из следующих форматов:

Avro
Parquet
SequenceFile

Как мне найти используемый кодек сжатия?Предполагается, что используется один из следующих кодеков сжатия (и в имени файла отсутствует расширение файла):

Snappy
Gzip (не поддерживается в Avro)
выкачать (не поддерживается на паркете)

Zoltan · Answer 1 · 21 октября 2018

Java-реализация Parquet включает утилиту parquet-tools, предоставляющую несколько команд.Смотрите страницу документации для сборки и начала работы.Более подробные описания отдельных команд напечатаны самим parquet-tools.Команда, которую вы ищете - meta.Это покажет все виды метаданных, включая сжатия.Вы можете найти пример вывода здесь , показывающий сжатие SNAPPY.

Обратите внимание, что алгоритм сжатия не должен быть одинаковым для всего файла.Разные фрагменты столбцов могут использовать разные компрессии, поэтому для кодека сжатия не существует единого поля, а по одному для каждого фрагмента столбца.(Чанк столбца - это часть столбца, принадлежащая одной группе строк.) Однако на практике вы, вероятно, найдете один и тот же кодек сжатия, используемый для всех чанков столбцов.

Аналогичная утилита существует для Avro, называется avro-tool.Я не очень знаком с ним, но он имеет команду getmeta, которая должна показать вам используемый кодек сжатия.

Найти кодек сжатия, используемый для файла hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найти кодек сжатия, используемый для файла hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы