Подключение из PyCharm к запуску Spark-Session - PullRequest
0 голосов
/ 19 марта 2019

В настоящее время я пытаюсь настроить свое искровое окружение и задаюсь вопросом, что является лучшей практикой. Я хочу написать свой код на Pycharm и выполнить его оттуда. Как я могу подключиться к локальному (на моем Mac) уже запущенному Spark-Session оттуда? Моя идея до сих пор заключалась в том, чтобы запустить оболочку pyspark в терминале, и если я запускаю свой код в Pycharm, он должен подключиться к этому запущенному Spark-Session.

Как это сделать?

Заранее спасибо!

1 Ответ

0 голосов
/ 20 марта 2019

Вы можете попробовать создать оболочку искры из Python, используя это:

import os, sys
os.environ['SPARK_HOME']="/home/spark-2.4.0-bin-hadoop2.7" #path to spark
sys.path.append(os.path.join(os.environ['SPARK_HOME'], 'python') )
sys.path.append(os.path.join(os.environ['SPARK_HOME'], 'python/lib/py4j-0.10.7-src.zip'))

import pyspark
spark = pyspark.sql.SparkSession.builder.appName("pysaprk_python").getOrCreate()

print (spark.version, spark.sparkContext.master)
...