подать искру извне кластера AWS EMR - PullRequest
0 голосов
/ 08 июня 2018

У меня работает искра кластера AWS EMR, и я хотел бы отправить ему задание PySpark со своего ноутбука (--master yarn) для работы в режиме кластера.Я знаю, что мне нужно настроить некоторую конфигурацию на ноутбуке, но я хотел бы знать, что такое минимум.Нужны ли мне только некоторые файлы конфигурации с главного узла кластера?Если так, то какой?Или мне нужно установить hadoop или yarn на моем локальном компьютере?

Я довольно долго искал ответ, но пока не смог убедиться, что прочитанное ссылаетсязапускать работу от мастера кластера или какого-то произвольного ноутбука ...

1 Ответ

0 голосов
/ 12 июня 2018

Если вы хотите запустить задание spark-submit исключительно в своем кластере AWS EMR, вам не нужно ничего устанавливать локально.Вам нужна только пара ключей EC2, которую вы указали в параметрах безопасности при создании кластера.

Я лично scp поверх любых соответствующих сценариев и / или jar-файлов, ssh в главный узел кластера и затем запускаю spark-submit.

. Вы можете указать большинствосоответствующие конфигурации заданий зажигания через spark-submit. Документы AWS более подробно Как настроить задания спарк-отправки.

Например:

>> scp -i ~/PATH/TO/${SSH_KEY} /PATH/TO/PYSPARK_SCRIPT.py hadoop@${PUBLIC_MASTER_DNS}:  
>> ssh -i ~/PATH/TO/${SSH_KEY} hadoop@${PUBLIC_MASTER_DNS}
>> spark-submit --conf spark.OPTION.OPTION=VALUE PYSPARK_SCRIPT.py

Однако, если вы уже передали конкретную конфигурацию при создании самого кластера, вам не нужно повторно указывать те же параметры конфигурации через spark-submit.

...