Загрузить банку Загрузите банку из репозитория Maven или из любого места по вашему выбору.Просто погугли это.Время публикации этой статьи я могу получить здесь: паркетные инструменты.
Если вы вошли в окно hadoop:
wget http://central.maven.org/maven2/org/apache/parquet/parquet-tools/1.9.0/parquet-tools-1.9.0.jar
Эта ссылка можетпрекрати работать через несколько дней.Так что получите новую ссылку из репозитория Maven.
Построить банку Если вы не можете загрузить банку, вы также можете собрать банку из исходного кода.Клонируйте репозиторий parquet-mr и постройте банку из исходного кода
git clone https://github.com/apache/parquet-mr
mvn clean package
Примечание: вам понадобится maven на вашей коробке, чтобы собратьsource.
Чтение файла паркета. Вы можете использовать эти команды для просмотра содержимого файла паркета -
Проверка схемы для файла s3 / hdfs:
hadoop jar parquet-tools-1.9.0.jar schema s3://path/to/file.snappy.parquet
hadoop jar parquet-tools-1.9.0.jar schema hdfs://path/to/file.snappy.parquet
Файл заголовкасодержимое:
hadoop jar parquet-tools-1.9.0.jar head -n5 s3://path/to/file.snappy.parquet
Проверьте содержимое локального файла:
java -jar parquet-tools-1.9.0.jar head -n5 /tmp/path/to/file.snappy.parquet
java -jar parquet-tools-1.9.0.jar schema /tmp/path/to/file.snappy.parquet
Дополнительные команды:
hadoop jar parquet-tools-1.9.0.jar –help