Получить экземпляр блоков данных Azure Spark в коде Python - PullRequest
0 голосов
/ 22 марта 2019

Я занимаюсь разработкой пакета python, который будет развернут в кластере баз данных.Нам часто нужна ссылка на объекты "spark" и "dbutils" в коде Python.

Мы можем легко получить доступ к этим объектам в Notebook, используя "spark" (например, spark.sql ()).Как получить экземпляр spark в коде python в пакете?

1 Ответ

1 голос
/ 22 марта 2019

SparkSession.Builder.getOrCreate * * 1004

Получает существующий SparkSession или, если его еще нет, создает новый на основе параметров, установленных в этом конструкторе.

Этот метод сначала проверяет, существует ли допустимый глобальный SparkSession по умолчанию, и, если да, возвращает его. Если не существует действительного глобального SparkSession по умолчанию, метод создает новый SparkSession и назначает вновь созданный SparkSession в качестве глобального глобального значения по умолчанию

Поэтому, когда вам нужен экземпляр SparkSession и вы не хотите передавать его в качестве аргумента:

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
...