Apache Parquet для плоских структур данных - PullRequest
0 голосов
/ 20 октября 2018

Паркет создается с нуля с учетом сложных вложенных структур данных и использует алгоритм измельчения и сборки записей, описанный в статье Dremel.

Я знаю, что поддержка вложенных структур необходима для универсального формата хранения.Однако кажется, что издержки на уничтожение и сборку записей (и, возможно, дополнительное хранилище для уровней определения и повторения) являются избыточными в случае плоских данных.

Являются ли издержки незначительными?Существуют ли альтернативные колоночные форматы хранения?

1 Ответ

0 голосов
/ 21 октября 2018

Я бы сказал, что преимущества простого структурированного типа файла лучше, чем альтернатива открытого текста, независимо от того, поддерживаются ли алгоритмы, использующие этот формат.

XML-файлы могут иметь схему, но слишкомподробный, и не содержит таких столбчатых статистических данных, как Паркет.

ORC, RCFile и RecordIO - альтернативные столбчатые форматы для хранения.

Apache Arrow - столбчатый формат в памяти

...