Spark работа на EMR зависает и никогда не заканчивается - PullRequest
0 голосов
/ 15 апреля 2019

Я пытаюсь запустить искровое задание в EMR, которое предполагает чтение 16 ГБ данных и сохранение самых старых 10-метровых записей в виде файла json в S3.Иногда работа успешно завершается за 4 минуты, но в большинстве случаев она просто зависает и никогда не заканчивается.

Я считаю, что моя конфигурация отправки с ошибкой плохая, я не совсем уверен, как правильно их настроить, это одна из комбинаций, которые я пробовал:

spark-submit 
--master yarn 
--deploy-mode client 
--conf spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem --conf spark.hadoop.fs.s3a.endpoint=s3.amazonaws.com 
--conf spark.hadoop.fs.s3a.connection.maximum=1500 
--conf spark.hadoop.fs.s3a.multipart.purge=false 
--conf spark.hadoop.fs.s3a.fast.upload=true 
--conf spark.hadoop.fs.s3a.fast.upload.buffer=disk 
--conf spark.hadoop.mapred.output.compress=true 
--conf spark.yarn.executor.memoryOverhead=1g 
--conf spark.hadoop.mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec 
--conf spark.hadoop.mapred.output.compression.type=BLOCK 
--conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 
--conf spark.driver.maxResultSize=32g 
--conf spark.driver.memory=32g 
--conf spark.executor.memory=4g 
--conf spark.executor.instances=64 
--conf spark.executor.cores=4

и конфигурация EMRэто:

1 главный узел c5.18xlarge, 72 vCore, память 144 ГиБ, хранилище только EBS, хранилище EBS: 1000 ГиБ

8 основных узлов c5.18xlarge, 72 vCore, память 144 ГиБ, Только хранилище EBS, хранилище EBS: 1000 ГиБ

Некоторые ошибки, которые я видел, были

Container exited with a non-zero exit code 137

, а в других случаях (например, при попытке использовать кластер режима развертывания) я виделмного

19/04/14 14:28:39 INFO Client: Application report for application_1555248573853_0002 (state: RUNNING)

и ничего не произошло ..

Есть предложения?

...