Было предложено хранилище данных, основанное на Spark на AWS (возможно, Glue ETL, но, возможно, EMR), где разделы расположены по дням (гггг, мм, дд), а данные для каждой таблицы основаны на первоначальном снимке сЕжедневные дельты загружаются в разделы.Данные будут храниться в файлах Parquet.
Дельты будут содержать только измененные столбцы.Между Spark и Parquet Predicate Pushdown утверждается, что сканирование разделов не потребуется.Однако из моего исследования мне кажется, что Predicate Pushdown действительно не поможет в этом случае, потому что, если вы создадите предложение «WHERE» на основе раздела, который говорит просто «дать мне самое последнее» значение столбца, Spark все равно будетЯ должен начать сканирование последнего раздела и работать в обратном направлении, пока не найдет значение столбца.
На самом деле, мне кажется, что столбцы, которые не изменились в течение некоторого времени, будут самыми плохими исполнителями запросов.
Я что-то упустил?