Я пытаюсь запустить искровое задание в EMR, которое предполагает чтение 16 ГБ данных и сохранение самых старых 10-метровых записей в виде файла json в S3.Иногда работа успешно завершается за 4 минуты, но в большинстве случаев она просто зависает и никогда не заканчивается.
Я считаю, что моя конфигурация отправки с ошибкой плохая, я не совсем уверен, как правильно их настроить, это одна из комбинаций, которые я пробовал:
spark-submit
--master yarn
--deploy-mode client
--conf spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem --conf spark.hadoop.fs.s3a.endpoint=s3.amazonaws.com
--conf spark.hadoop.fs.s3a.connection.maximum=1500
--conf spark.hadoop.fs.s3a.multipart.purge=false
--conf spark.hadoop.fs.s3a.fast.upload=true
--conf spark.hadoop.fs.s3a.fast.upload.buffer=disk
--conf spark.hadoop.mapred.output.compress=true
--conf spark.yarn.executor.memoryOverhead=1g
--conf spark.hadoop.mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec
--conf spark.hadoop.mapred.output.compression.type=BLOCK
--conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
--conf spark.driver.maxResultSize=32g
--conf spark.driver.memory=32g
--conf spark.executor.memory=4g
--conf spark.executor.instances=64
--conf spark.executor.cores=4
и конфигурация EMRэто:
1 главный узел c5.18xlarge, 72 vCore, память 144 ГиБ, хранилище только EBS, хранилище EBS: 1000 ГиБ
8 основных узлов c5.18xlarge, 72 vCore, память 144 ГиБ, Только хранилище EBS, хранилище EBS: 1000 ГиБ
Некоторые ошибки, которые я видел, были
Container exited with a non-zero exit code 137
, а в других случаях (например, при попытке использовать кластер режима развертывания) я виделмного
19/04/14 14:28:39 INFO Client: Application report for application_1555248573853_0002 (state: RUNNING)
и ничего не произошло ..
Есть предложения?