AWS Glue - Spark Job - как увеличить лимит памяти или работать более эффективно? - PullRequest
0 голосов
/ 10 марта 2020

При выполнении задания Spark (Glue) - при записи Dataframe в S3 - появляется ошибка:

Container killed by YARN for exceeding memory limits.  5.6 GB of 5.5 GB physical memory used.
Consider boosting spark.yarn.executor.memoryOverhead or 
disabling yarn.nodemanager.vmem-check-enabled because of YARN-4714.

Существует ли простое лекарство от этого?

Как записать Dataframe в S3 можно оптимизировать (использовать меньше памяти)?

Как увеличить объем памяти для контейнеров, чтобы у нас было больше места для работы?

1 Ответ

0 голосов
/ 11 марта 2020

Как вы, возможно, уже знаете, AWS Работа с клеем не поддерживает увеличение памяти. Но вы можете выбрать G1.X в качестве рабочего типа для работы с клеем. AWS рекомендует использовать это для интенсивной работы с памятью. https://docs.aws.amazon.com/en_us/glue/latest/dg/add-job.html

Кроме этого, я не вижу никакой опции конфигурации для увеличения памяти.

Проверяли ли вы профиль памяти метрик времени выполнения задания?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...