Контейнер уничтожен YARN за превышение пределов памяти. 14,8 ГБ используемой физической памяти 6 ГБ. - PullRequest
0 голосов
/ 15 февраля 2019

У меня есть искорка, где я делаю следующее

  1. Загрузка данных из паркета с помощью spark sql и преобразование их в pandas df.Размер данных составляет всего 250 МБ
  2. . Запустите rdd.foreach, чтобы выполнить итерацию по относительно некоторому набору данных (1000 строк), взять pandas df с шага 1 и выполнить некоторое преобразование.

Я получаю контейнер, убитый YARN за ошибку превышения пределов памяти после некоторых итераций.

Container killed by YARN for exceeding memory limits. 14.8 GB of 6 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead

Я не могу понять, почему ошибка говорит о 14,8 ГБ используемой физической памяти 6 ГБ?

Я попытался увеличить spark.yarn.executor.memoryOverhead. Я использовал следующую команду

spark-submit --master yarn --deploy-mode cluster --num-executors 4 --executor-cores 2 --executor-memory 2G --conf spark.yarn.executor.memoryOverhead = 4096 --py-files test.zip app_main.py

Я использую spark 2.3

yarn.scheduler.minimum-allocation-mb = 512 MB
yarn.nodemanager.resource.memory-mb = 126 GB

1 Ответ

0 голосов
/ 15 февраля 2019

Это одна из распространенных ошибок при использовании параметра memoryOverhead, для настройки заданий лучше использовать другие параметры..

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...