Руководство по конфигурации искры + конфигурация оборудования EMR - PullRequest
0 голосов
/ 19 июня 2020

У меня есть служба EMR, которая выполняет следующие операции: 1. Загрузка данных из s3 (макс. 5 ГБ) 2. Выполнение какой-то проверки, проверки работоспособности и преобразования 3. Загрузка в таблицу DDb

Прямо сейчас, У меня ниже конфигурация оборудования (не уверен, подходит это или нет) «releaseLabel»: «emr-5.28.0», «masterInstanceType»: «c5.12xlarge», «masterInstanceCount»: 1, «slaveInstanceType»: » c5.12xlarge "," slaveInstanceCount ": 3,

Определите это задание искры:

     'spark-submit',
             '--deploy-mode',
             'cluster',
             '--master',
             'yarn',
             '--num-executors',
             '40',
             '--executor-memory',
             '20G',
             '--driver-memory',
             '20G',
             '--executor-cores',
             '5',
             '--driver-cores',
             '5',
             '--conf',
             'spark.driver.maxResultSize=3g',
             '--conf',
             'spark.driver.userClassPathFirst=true',
             '--conf',
             'spark.yarn.maxAppAttempts=1',
             '--conf',
             'spark.sql.shuffle.partitions=400',
             '--conf',
             'spark.default.parallelism=2000',
             '--class',
             'com.amazon.pdldataloaderemr.ControlFlowProcess',

Пожалуйста, дайте мне знать, если 1. Свойство искры правильное по отношению к оборудованию 2. Является ли оборудование достаточно хорошее или нужно урезать больше?

...