у нас есть искровое задание, которое читает файл CSV и применяет серию преобразований и записывает результат в файл или c,
задание искры разбивается на около 20 этапов и выполняется для около часа
input csv file size: 10 GB
конфигурация ресурса задания спарк-отправки:
driver-memory= 5 GB
num-executors= 2
executor-core= 3
executor-memory= 20 GB
Тип экземпляра EC2: r5d.xlarge
т.е. 32GB Memory
и 4 vCPU
с прикрепленным 128 GB EBS volume
EMR Cluster включает в себя 1 Master Node
и 2 Core machines
, когда мы запускаем искровое задание на указанных выше конфигурациях кластера, загрузка процессора только близка к 10-15%
нашей Требуется максимально увеличить использование процессора экземплярами EC2 для моей искровой работы.
Благодарим за любые предложения!