Возможно, это действительно глупый вопрос, но я не могу найти ответ в Google.Я написал простой сценарий pyspark ETL, который читает в CSV и записывает его в Parquet, что-то вроде этого:
spark = SparkSession.builder.getOrCreate()
sqlContext = SQLContext(spark.sparkContext)
df = sqlContext.read.csv(input_filename)
df.write.parquet(output_path)
Чтобы запустить его, я запускаю локальный кластер Spark в Docker:
$ docker run --network=host jupyter/pyspark-notebook
Я запускаю скрипт Python, и он подключается к этому локальному кластеру Spark, и все работает как положено.
Теперь я хотел бы запустить этот же скрипт на удаленном кластере Spark (AWS EMR),Могу ли я просто указать удаленный IP-адрес где-нибудь при инициализации контекста Spark?Или я неправильно понимаю, как работает Spark?