AWS клей || Сколько DPU / Количество рабочих / других оптимизаций для анализа 420 миллионов строк? - PullRequest
0 голосов
/ 27 февраля 2020

Я использую AWS Клей и кодирование на pyspark. Я должен проанализировать данные за 3 года (2017, 2018, 2019). Это составляет около 416873810 строк. Они будут увеличиваться, когда мы добавим данные за другие годы (2015, 2016). Каждый год имеет около 138162022 строк, поэтому в будущем, если мы будем хранить данные за 5 лет, количество строк будет соответственно увеличиваться.

Я пытался увеличить количество DPU конечной точки dev до 20, но все равно обработка идет очень медленно (например, сумма столбцов сама заняла около 30 минут).

Что бы предложения по увеличению скорости обработки наряду с оптимизированной стоимостью?

...