Spark and Parquet Predicate Pushdown для ежедневных дельт - PullRequest
0 голосов
/ 04 февраля 2019

Было предложено хранилище данных, основанное на Spark на AWS (возможно, Glue ETL, но, возможно, EMR), где разделы расположены по дням (гггг, мм, дд), а данные для каждой таблицы основаны на первоначальном снимке сЕжедневные дельты загружаются в разделы.Данные будут храниться в файлах Parquet.

Дельты будут содержать только измененные столбцы.Между Spark и Parquet Predicate Pushdown утверждается, что сканирование разделов не потребуется.Однако из моего исследования мне кажется, что Predicate Pushdown действительно не поможет в этом случае, потому что, если вы создадите предложение «WHERE» на основе раздела, который говорит просто «дать мне самое последнее» значение столбца, Spark все равно будетЯ должен начать сканирование последнего раздела и работать в обратном направлении, пока не найдет значение столбца.

На самом деле, мне кажется, что столбцы, которые не изменились в течение некоторого времени, будут самыми плохими исполнителями запросов.

Я что-то упустил?

...