У меня есть служба EMR, которая выполняет следующие операции: 1. Загрузка данных из s3 (макс. 5 ГБ) 2. Выполнение какой-то проверки, проверки работоспособности и преобразования 3. Загрузка в таблицу DDb
Прямо сейчас, У меня ниже конфигурация оборудования (не уверен, подходит это или нет) «releaseLabel»: «emr-5.28.0», «masterInstanceType»: «c5.12xlarge», «masterInstanceCount»: 1, «slaveInstanceType»: » c5.12xlarge "," slaveInstanceCount ": 3,
Определите это задание искры:
'spark-submit',
'--deploy-mode',
'cluster',
'--master',
'yarn',
'--num-executors',
'40',
'--executor-memory',
'20G',
'--driver-memory',
'20G',
'--executor-cores',
'5',
'--driver-cores',
'5',
'--conf',
'spark.driver.maxResultSize=3g',
'--conf',
'spark.driver.userClassPathFirst=true',
'--conf',
'spark.yarn.maxAppAttempts=1',
'--conf',
'spark.sql.shuffle.partitions=400',
'--conf',
'spark.default.parallelism=2000',
'--class',
'com.amazon.pdldataloaderemr.ControlFlowProcess',
Пожалуйста, дайте мне знать, если 1. Свойство искры правильное по отношению к оборудованию 2. Является ли оборудование достаточно хорошее или нужно урезать больше?