Приоритет конфигурации Spark Executor - PullRequest
0 голосов
/ 18 марта 2020

Я видел команду отправки Spark со следующими параметрами

spark-submit --class ${my_class} \
         --master yarn \
         --deploy-mode cluster \
         --executor-cores 2 \                        <--- executor cores
         --driver-cores 2\                           <--- driver cores
         --num-executors 12 \                        <--- number of executors 
         --files hdfs:///blah.xml \
               --conf spark.executor.instances=15 \  <--- number of executors again?
               --conf spark.executor.cores=4 \       <--- driver cores again?
               --conf spark.driver.cores=4 \         <--- executor cores again?

Кажется, что может быть несколько способов установить номер ядра и номер экземпляра для узла исполнителя и драйвера, просто интересно, в приведенной выше настройке, которая способ взять приоритет и перезаписать другой? Параметр -- или conf? В конце концов, сколько ядер и экземпляров отдано на искровую работу?

1 Ответ

1 голос
/ 18 марта 2020

Конфигурация выбирается в зависимости от порядка предпочтения.

Приоритет, конфигурация, определенная в приложении через set (), получает наивысший приоритет. Второй приоритет отдается параметрам spark-submit, а затем следующий приоритет отдается параметрам конфигурации по умолчанию.

--executor-cores 2 \ <--- executor cores --driver-cores 2\ <--- driver cores --num-executors 12 \ <--- number of executors

Приведенная выше конфигурация будет иметь приоритет над параметрами --conf в качестве этих свойств используются для переопределения приоритетов conf по умолчанию.

...