Что такое сводный файл Parquet? - PullRequest
0 голосов
/ 05 ноября 2018

На официальном сайте Apache это официальное объяснение этого параметра :

При значении true источник данных Parquet объединяет схемы, собранные из всех файлов данных, в противном случае схема выбирается из файла сводки или файла случайных данных, если файл сводки недоступен.

На самом деле, мой вопрос: что такое сводный файл ?

Ответы [ 2 ]

0 голосов
/ 27 декабря 2018

Формат хранения паркета - это столбчато-ориентированный формат файла, который означает, что данные для определенного столбца для всех строк будут храниться рядом друг с другом, что дает два основных преимущества - лучшую степень сжатия и повышенную производительность запросов.

0 голосов
/ 05 ноября 2018

Apache Parquet использует метаданные для хранения всей информации, необходимой для загрузки данных из файла, например метаданные столбцов, группы строк словарей и т. Д.

Формат предназначен для хранения этих метаданных в самом файле или в отдельном файле. Это файл summary.

...