Найти кодек сжатия, используемый для файла hadoop - PullRequest
0 голосов
/ 20 октября 2018

Имеется сжатый файл, написанный на платформе hadoop, в одном из следующих форматов:

  • Avro
  • Parquet
  • SequenceFile

Как мне найти используемый кодек сжатия?Предполагается, что используется один из следующих кодеков сжатия (и в имени файла отсутствует расширение файла):

  • Snappy
  • Gzip (не поддерживается в Avro)
  • выкачать (не поддерживается на паркете)

1 Ответ

0 голосов
/ 21 октября 2018

Java-реализация Parquet включает утилиту parquet-tools, предоставляющую несколько команд.Смотрите страницу документации для сборки и начала работы.Более подробные описания отдельных команд напечатаны самим parquet-tools.Команда, которую вы ищете - meta.Это покажет все виды метаданных, включая сжатия.Вы можете найти пример вывода здесь , показывающий сжатие SNAPPY.

Обратите внимание, что алгоритм сжатия не должен быть одинаковым для всего файла.Разные фрагменты столбцов могут использовать разные компрессии, поэтому для кодека сжатия не существует единого поля, а по одному для каждого фрагмента столбца.(Чанк столбца - это часть столбца, принадлежащая одной группе строк.) Однако на практике вы, вероятно, найдете один и тот же кодек сжатия, используемый для всех чанков столбцов.

Аналогичная утилита существует для Avro, называется avro-tool.Я не очень знаком с ним, но он имеет команду getmeta, которая должна показать вам используемый кодек сжатия.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...