G.2X рабочий тип общий размер сериализованных результатов больше чем spark.driver.maxResultSize - PullRequest
0 голосов
/ 09 ноября 2019

Я выполняю задание etl, пытаюсь преобразовать данные объемом около 40 ГБ и сохранить их в корзину S3. Я использую рабочий тип G.2X, потому что я понимаю, что этот тип имеет самые высокие настройки памяти. Я получил ошибку ниже, что мои общие сериализованные результаты превысили 10 ГБ. Поэтому я попытался увеличить его до maxResultSize = 15G и memory = 25, но получил ошибку неверного аргумента в следующем задании. Кто-нибудь знает, какие максимальные значения для этих настроек для G.2X? Есть ли другая проблема, вызывающая эту ошибку, или другой параметр, который мне нужно изменить? Кто-нибудь может предложить другой способ решения проблемы?

задание 1:

worker type = G.2X spark.driver.maxResultSize=10G --conf  spark.driver.memory=20G

ошибка:

"Произошла ошибка при вызове o317758.parquet. Задание прервано из-за сбоя этапа: общий размер сериализованных результатов 5586 задач (10,0 ГБ) больше, чем spark.driver.maxResultSize (10,0 ГБ) "

задание 2:

worker type = G.2X spark.driver.maxResultSize=15G --conf  spark.driver.memory=25G

ошибка:

"Неверный ввод: Исключение в потоке" main "java.lang.IllegalArgumentException: Требуемая память AM (30720 + 3072 МБ) превышает максимальный порог (24576 МБ) этогокластер! Пожалуйста, проверьте значения 'yarn.scheduler.maximum-allocation-mb' и / или 'yarn.nodemanager.resource.memory-mb'. "

...