Полосы против партии в ORC и перегородки в паркете - PullRequest
0 голосов
/ 31 января 2019

Я новичок в Big Data, пытаясь понять различные форматы файлов с точки зрения лучшего выполнения запросов, пытаясь понять больше о расположении файлов ORC & Parquet, натолкнулся на приведенную ниже терминологию и хотел проверить мое понимание.

  1. Полосы - насколько я понимаю, они представляют собой группу строк, принадлежащих одному и тому же набору данных, например, если у нас есть данные для разных стран в файле, данные для каждой страны находятся водна полоса, это помогает уменьшить объем данных, передаваемых с диска в память, так как несоответствующие полоски могут быть пропущены с помощью Predicate push down.

  2. VectorizedRowBatch, это помогает в векторизации столбчатых данных для эффективной обработки ЦП.он обрабатывает партию за партией.в этом контексте я не мог понять разницу между Stripes & Batch.Как я понял, полосы помогают уменьшить объем данных, передаваемых с диска в память, в то время как пакетная обработка помогает при параллельной обработке записей с использованием подхода векторизации.

3. Стрипы относятся только к ORCФормат файла, схожая концепция для файлов Parquet - это «Разделы», которые связаны с данными, хранящимися в RowGroups.который помогает в предикате нажать вниз.

для Parquet у нас нет поддержки векторизации, означает ли это, что ORC лучше по сравнению с Parquet для лучшей загрузки ЦП.

Пожалуйста, исправьте меня, если мое понимание неверно для упомянутых пунктов.

...