Как получить доступ к Apache PySpark из командной строки? - PullRequest
0 голосов
/ 03 октября 2019

Я прохожу онлайн-курс по Apache PySpark с использованием ноутбуков Jupyter. Чтобы легко открыть записные книжки Jupyter, они попросили меня ввести следующие строки кода в мой профиль bash (я использую MAC OS):

export SPARK_HOME="(INSERTED MY SPARK DIRECTORY)"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

Я не слишком знаком с Linux, и курс нене объясните, что делают эти строки кода. Прежде чем я это сделал, я мог получить доступ к PySpark через командную строку, набрав «pyspark». Но теперь, когда я набираю «pyspark», он открывает блокнот jupyter. Теперь я не могу понять, как получить к нему доступ из командной строки. Что делает этот код и как я могу получить доступ к командной строке pyspark?

1 Ответ

1 голос
/ 03 октября 2019

Используете ли вы локальную установку Pyspark?

Вы можете использовать https://github.com/minrk/findspark

Установить findspark с помощью Anaconda.

Сначала добавьте эти две строки ион сможет найти pyspark.

import findspark
findspark.init()

import pyspark
sc = pyspark.SparkContext(appName="myAppName")
...