Я выполняю задание etl, пытаюсь преобразовать данные объемом около 40 ГБ и сохранить их в корзину S3. Я использую рабочий тип G.2X, потому что я понимаю, что этот тип имеет самые высокие настройки памяти. Я получил ошибку ниже, что мои общие сериализованные результаты превысили 10 ГБ. Поэтому я попытался увеличить его до maxResultSize = 15G и memory = 25, но получил ошибку неверного аргумента в следующем задании. Кто-нибудь знает, какие максимальные значения для этих настроек для G.2X? Есть ли другая проблема, вызывающая эту ошибку, или другой параметр, который мне нужно изменить? Кто-нибудь может предложить другой способ решения проблемы?
задание 1:
worker type = G.2X spark.driver.maxResultSize=10G --conf spark.driver.memory=20G
ошибка:
"Произошла ошибка при вызове o317758.parquet. Задание прервано из-за сбоя этапа: общий размер сериализованных результатов 5586 задач (10,0 ГБ) больше, чем spark.driver.maxResultSize (10,0 ГБ) "
задание 2:
worker type = G.2X spark.driver.maxResultSize=15G --conf spark.driver.memory=25G
ошибка:
"Неверный ввод: Исключение в потоке" main "java.lang.IllegalArgumentException: Требуемая память AM (30720 + 3072 МБ) превышает максимальный порог (24576 МБ) этогокластер! Пожалуйста, проверьте значения 'yarn.scheduler.maximum-allocation-mb' и / или 'yarn.nodemanager.resource.memory-mb'. "