Правильная конфигурация искры для полного использования ресурсов кластера EMR - PullRequest
0 голосов
/ 29 мая 2019

Я совершенно новичок в настройке свечей, поэтому хотел узнать, полностью ли я использую свой кластер EMR.EMR-кластер использует spark 2.4 и hadoop 2.8.5.

Приложение считывает множество маленьких сжатых json-файлов из s3, преобразует данные и записывает их обратно в s3.

I 'Я читал различные статьи, но я надеялся, что смогу перепроверить мою конфигурацию в случае, если были установлены настройки, конфликтующие друг с другом или чем-то подобным.

Я использую кластер c4.8xlarge с каждым из 3рабочие узлы, имеющие 36 процессорных ядер и 60 ГБ оперативной памяти.Итак, это 108 процессорных ядер и 180 ГБ оперативной памяти в целом.

Вот мои настройки для автоматической отправки, которые я вставляю в поле шага добавления EMR:

--class com.example.app
--master yarn
--driver-memory 12g
--executor-memory 3g
--executor-cores 3
--num-executors 33
--conf spark.executor.memory=5g
--conf spark.executor.cores=3
--conf spark.executor.instances=33
--conf spark.driver.cores=16
--conf spark.driver.memory=12g
--conf spark.default.parallelism=200
--conf spark.sql.shuffle.partitions=500
--conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 
--conf spark.speculation=false
--conf spark.yarn.am.memory=1g
--conf spark.executor.heartbeatInterval=360000
--conf spark.network.timeout=420000
--conf spark.hadoop.fs.hdfs.impl.disable.cache=true
--conf spark.kryoserializer.buffer.max=512m
--conf spark.shuffle.consolidateFiles=true
--conf spark.hadoop.fs.s3a.multiobjectdelete.enable=false
--conf spark.hadoop.fs.s3a.fast.upload=true
--conf spark.worker.instances=3
...