Ответ зависит от того, откуда ваш SparkContext
.
Если вы запускаете Jupyter с pyspark
:
PYSPARK_DRIVER_PYTHON='jupyter'\
PYSPARK_DRIVER_PYTHON_OPTS="notebook" \
PYSPARK_PYTHON="python" \
pyspark
тогда ваш SparkContext уже инициализируется, когда вы получаете ядро Python в Jupyter. Поэтому вы должны передать параметр в pyspark (в конце приведенной выше команды): --conf spark.local.dir=...
Если вы создаете SparkContext
в Python
Если у вас есть код в вашей записной книжке, например:
import pyspark
sc = pyspark.SparkContext()
, затем вы можете настроить контекст Spark перед его созданием:
import pyspark
conf = pyspark.SparkConf()
conf.set('spark.local.dir', '...')
sc = pyspark.SparkContext(conf=conf)
Настройка Spark из командной строки:
Также можно настроить Spark, отредактировав файл конфигурации в bash. Файл, который вы хотите отредактировать, - ${SPARK_HOME}/conf/spark-defaults.conf
. Вы можете добавить к нему следующее (создав его, если он не существует):
echo 'spark.local.dir /foo/bar' >> ${SPARK_HOME}/conf/spark-defaults.conf