OffsetIndex в паркете 1.11.0 - PullRequest
       6

OffsetIndex в паркете 1.11.0

0 голосов
/ 22 марта 2019

Начиная с паркета 1.10.0, паркет вводит две новые индексные структуры: ColumnIndex и OffsetIndex.Документ находится здесь https://github.com/apache/parquet-format/blob/master/PageIndex.md

Из документа я могу ясно понять идею ColumnIndex, которая указывает на страницы внутри каждого фрагмента столбца.Но я не совсем понимаю идею, лежащую в основе OffsetIndex.

Как сказано в документе, OffsetIndex используется для перехода к строкам, указанным в ColumnIndex.Но ColumnIndex указывает только на страницы, которые сжаты в целом.Тогда как можно использовать OffsetIndex для перехода, например, к одной строке внутри группы строк?

1 Ответ

0 голосов
/ 25 марта 2019

После прочтения документа здесь: https://docs.google.com/document/d/1sBACp8Lbutuj1Zxdowvsrlm8ku4BFxf8U_Do5K2wSO4/edit

В одном предложении один ColumnIndex хранит статистику всех страниц, принадлежащих одному столбцу, а точное смещение каждой страницы в ColumnChunk хранится в OffsetIndex..

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...