Насколько точно формат файла Parquet? - PullRequest
0 голосов
/ 06 мая 2019

У меня есть два основных вопроса о формате файла apache parquet:

  1. На веб-сайте apache упоминается, что «страницы имеют общий заголовок, и читатели могут пропустить интересующую их страницу.в'.в этом случае?Как вы можете сжать некоторые страницы (из одного столбца одной и той же группы строк), а некоторые нет?как у вас может быть разная статистика по разным группам?Кроме того, в заголовочном файле группы строк есть только смещение первой страницы в каждом столбце, в этом случае, как вы определяете смещение других страниц?как можно пропустить страницы для перехода на следующую, если у вас нет другой информации о других страницах?

  2. в метаданных группы строк есть метаданные для каждого столбца.Ниже приведена также структура файла, упомянутого на веб-сайте Apache:

    4-byte magic number "PAR1"

    Column 1 Chunk 1 + Column Metadata

    Column 2 Chunk 1 + Column Metadata

    ...

    Column N Chunk 1 + Column Metadata

    Column 1 Chunk 2 + Column Metadata

    Column 2 Chunk 2 + Column Metadata

    ...

    Column N Chunk 2 + Column Metadata
    ...

    Column 1 Chunk M + Column Metadata

    Column 2 Chunk M + Column Metadata

    ...

    Column N Chunk M + Column Metadata

    File Metadata

    4-byte length in bytes of file metadata

    4-byte magic number "PAR1"

Мне интересно, в чем разница между метаданными столбца, упомянутыми в метаданных группы строк, и метаданными столбца?упоминалось выше?Исходя из вышесказанного, кажется, что каждый столбец сопровождается своими метаданными?мое понимание верно?если да, то являются ли эти метаданные дубликатом метаданных в заголовке группы строк?или это метаданные для метаданных страницы?

Может ли кто-нибудь опубликовать файл паркета с его данными и точным форматом в виде обычного текста (не в двоичном формате), чтобы я понял, насколько точно формат файла?Большое спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...