Как запустить локальный скрипт Python на удаленном кластере Spark? - PullRequest
0 голосов
/ 02 ноября 2018

У меня есть локальный скрипт Python, работающий в записной книжке Jupyter, который выполняет задания на моем локальном кластере Spark, работающем на моей машине:

sc = pyspark.SparkContext(appName="test")
sqlCtx = pyspark.SQLContext(sc)

Как изменить это на строку подключения, чтобы вместо этого запускать задания в моем кластере EMR Spark в AWS?

Возможно ли это, или мне нужно использовать функцию spark-submit при SSH'инге в удаленном кластере?

1 Ответ

0 голосов
/ 02 ноября 2018

Вы должны использовать spark-submit. Я не верю, что вы можете подключить свой локальный скрипт к кластеру EMR, потому что ваш главный узел должен быть локальным.

Вот аналогичный пост, который может быть полезен: Как подключиться к Spark EMR из локально работающей Spark Shell Однако добавление задания Spark в качестве шага EMR - это просто еще один способ отправки кода, если вы хотите, чтобы код использовался повторно.

Если ваша цель - использовать ноутбук Jupyter поверх кластера EMR, см. Здесь. https://aws.amazon.com/blogs/big-data/running-jupyter-notebook-and-jupyterhub-on-amazon-emr/

...