Ошибка нехватки памяти при запуске искры отправки - PullRequest
0 голосов
/ 22 марта 2020

Я пытаюсь загрузить данные таблицы 60 ГБ в кадр данных Spark python, а затем записать их в таблицу кустов.

Я установил память драйвера, память исполнителя, максимальный размер результата, достаточный для обработки данных. Но я получаю сообщение об ошибке при запуске spark submit со всеми вышеуказанными конфигами, указанными в командной строке.

Примечание. Через оболочку spark python (указав память драйвера и исполнителя при запуске оболочки) я могу заполнить целевую таблицу улья.

Есть мысли ??

1 Ответ

0 голосов
/ 23 марта 2020

Попробуйте использовать синтаксис:

./spark-submit --conf ...

Для конфигурации, связанной с памятью. Я подозреваю, что вы делаете - вы устанавливаете их, инициализируя SparkSession - что становится неактуальным, так как к тому времени ядро ​​уже запущено. Подойдут те же параметры, что и для запуска оболочки.

https://spark.apache.org/docs/latest/submitting-applications.html

...