Приложение не удалось 2 раза из-за контейнера AM, выход с кодом выхода -104 - PullRequest
0 голосов
/ 08 мая 2019

Я запускаю приложение Spark с двумя входными файлами и файлом jar, который берется из корзины Amazon S3.Я создаю кластер, используя AWS CLI с instance type в качестве m5.12xlarge и instance-count в качестве 11 и со свойствами spark в виде:

--deploy-mode cluster
--num-executors 10
--executor-cores 45
--executor-memory 155g

В течение некоторого времени выполнялось мое задание spark, а затем оно не удалосьи автоматически перезагружался и снова запускался некоторое время, а затем показал эту диагностику (извлечено из журналов)

diagnostics: Application application_1557259242251_0001 failed 2 times due to AM Container for appattempt_1557259242251_0001_000002 exited with  exitCode: -104
Failing this attempt.Diagnostics: Container [pid=11779,containerID=container_1557259242251_0001_02_000001] is running beyond physical memory limits. Current usage: 1.4 GB of 1.4 GB physical memory used; 3.5 GB of 6.9 GB virtual memory used. Killing container.
Dump of the process-tree for container_1557259242251_0001_02_000001 :
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

Exception in thread "main" org.apache.spark.SparkException: Application application_1557259242251_0001 finished with failed status
at org.apache.spark.deploy.yarn.Client.run(Client.scala:1165)
at org.apache.spark.deploy.yarn.YarnClusterApplication.start(Client.scala:1520)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:894)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:198)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:228)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:137)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
19/05/07 20:03:35 INFO ShutdownHookManager: Shutdown hook called
19/05/07 20:03:35 INFO ShutdownHookManager: Deleting directory /mnt/tmp/spark-3deea823-45e5-4a11-a5ff-833b01e6ae79
19/05/07 20:03:35 INFO ShutdownHookManager: Deleting directory /mnt/tmp/spark-d6c3f8b2-34c6-422b-b946-ad03b1ee77d6
Command exiting with ret '1'

Я не могу выяснить, в чем проблема?

IЯ пытался изменить тип экземпляра или уменьшить объем памяти и ядра executor, но проблема все еще возникает.Иногда одни и те же параметры конфигурации успешно завершают работу кластера и генерируются результаты, но много раз эти ошибки генерируются.

Может кто-нибудь помочь, пожалуйста?

1 Ответ

0 голосов
/ 01 июля 2019

Если вы предоставляете более 1 входного файла для задания искры. Сделайте банку и затем выполните ее.

Шаг 1: Как сделать zip-файл

zip abc.zip file1.py file2.py

Шаг 2: Выполнить задание с zip-файлом

spark2-submit --master yarn --deploy-mode cluster --py-files /home/abc.zip /home/main_program_file.py
...