У меня есть два основных вопроса о формате файла apache parquet:
На веб-сайте apache упоминается, что «страницы имеют общий заголовок, и читатели могут пропустить интересующую их страницу.в'.в этом случае?Как вы можете сжать некоторые страницы (из одного столбца одной и той же группы строк), а некоторые нет?как у вас может быть разная статистика по разным группам?Кроме того, в заголовочном файле группы строк есть только смещение первой страницы в каждом столбце, в этом случае, как вы определяете смещение других страниц?как можно пропустить страницы для перехода на следующую, если у вас нет другой информации о других страницах?
в метаданных группы строк есть метаданные для каждого столбца.Ниже приведена также структура файла, упомянутого на веб-сайте Apache:
4-byte magic number "PAR1"
Column 1 Chunk 1 + Column Metadata
Column 2 Chunk 1 + Column Metadata
...
Column N Chunk 1 + Column Metadata
Column 1 Chunk 2 + Column Metadata
Column 2 Chunk 2 + Column Metadata
...
Column N Chunk 2 + Column Metadata
...
Column 1 Chunk M + Column Metadata
Column 2 Chunk M + Column Metadata
...
Column N Chunk M + Column Metadata
File Metadata
4-byte length in bytes of file metadata
4-byte magic number "PAR1"
Мне интересно, в чем разница между метаданными столбца, упомянутыми в метаданных группы строк, и метаданными столбца?упоминалось выше?Исходя из вышесказанного, кажется, что каждый столбец сопровождается своими метаданными?мое понимание верно?если да, то являются ли эти метаданные дубликатом метаданных в заголовке группы строк?или это метаданные для метаданных страницы?
Может ли кто-нибудь опубликовать файл паркета с его данными и точным форматом в виде обычного текста (не в двоичном формате), чтобы я понял, насколько точно формат файла?Большое спасибо.