Если вы хотите запустить задание spark-submit исключительно в своем кластере AWS EMR, вам не нужно ничего устанавливать локально.Вам нужна только пара ключей EC2, которую вы указали в параметрах безопасности при создании кластера.
Я лично scp
поверх любых соответствующих сценариев и / или jar-файлов, ssh
в главный узел кластера и затем запускаю spark-submit
.
. Вы можете указать большинствосоответствующие конфигурации заданий зажигания через spark-submit
. Документы AWS более подробно Как настроить задания спарк-отправки.
Например:
>> scp -i ~/PATH/TO/${SSH_KEY} /PATH/TO/PYSPARK_SCRIPT.py hadoop@${PUBLIC_MASTER_DNS}:
>> ssh -i ~/PATH/TO/${SSH_KEY} hadoop@${PUBLIC_MASTER_DNS}
>> spark-submit --conf spark.OPTION.OPTION=VALUE PYSPARK_SCRIPT.py
Однако, если вы уже передали конкретную конфигурацию при создании самого кластера, вам не нужно повторно указывать те же параметры конфигурации через spark-submit
.