Java-реализация Parquet включает утилиту parquet-tools
, предоставляющую несколько команд.Смотрите страницу документации для сборки и начала работы.Более подробные описания отдельных команд напечатаны самим parquet-tools
.Команда, которую вы ищете - meta
.Это покажет все виды метаданных, включая сжатия.Вы можете найти пример вывода здесь , показывающий сжатие SNAPPY.
Обратите внимание, что алгоритм сжатия не должен быть одинаковым для всего файла.Разные фрагменты столбцов могут использовать разные компрессии, поэтому для кодека сжатия не существует единого поля, а по одному для каждого фрагмента столбца.(Чанк столбца - это часть столбца, принадлежащая одной группе строк.) Однако на практике вы, вероятно, найдете один и тот же кодек сжатия, используемый для всех чанков столбцов.
Аналогичная утилита существует для Avro, называется avro-tool
.Я не очень знаком с ним, но он имеет команду getmeta
, которая должна показать вам используемый кодек сжатия.