Я ищу простейшую рекомендацию, чтобы исправить мою установку Spark и настроить ее так, чтобы я мог правильно запустить ее в ноутбуке jupyter:
from pyspark import SparkContext
sc = SparkContext()
В ноутбуке jupyter я получил следующую ошибку, связанную сошибка файла не найдена в каталоге, где у меня была предыдущая установка на spark-2.0.0-bin-hadoop2.7.
FileNotFoundError: [Errno 2] No such file or directory: '/Applications/spark-2.0.0-bin-hadoop2.7/./bin/spark-submit': '/Applications/spark-2.0.0-bin-hadoop2.7/./bin/spark-submit'
Нужно ли что-то добавить в .bashrc или удалить spark-2.0.0-bin-hadoop2.7, чтобы это работало?
Первоначально я установил spark-2.0.0-bin-hadoop2.7, но возникли проблемы с получением правильных переменных среды $ PATH, указывающих на корневую папку Applications.Я новичок в настройке переменных и не смог правильно пройти через все настройки, поэтому я удалил те, что добавил в .bashrc и папку spark в Applications.
В качестве альтернативы я попробовал brew и pip для установки apache-spark (2.4.3) и pyspark (2.4.3).Для java я скачал напрямую с oracle и имею версию 8 RU211:
openjdk version "1.8.0_212"
OpenJDK Runtime Environment (AdoptOpenJDK)(build 1.8.0_212-b03)
OpenJDK 64-Bit Server VM (AdoptOpenJDK)(build 25.212-b03, mixed mode)`
В терминале я могу успешно запустить pyspark, запустив spark 2.4.3, который использует python 2.7.10.Тем не менее, я использую Python 3.7.3, когда я использую Python3-версия:
Unknown option: -e
usage: /usr/local/Cellar/python/3.7.3/Frameworks/Python.framework/Versions/3.7/Resources/Python.app/Contents/MacOS/Python [option] ... [-c cmd | -m mod | file | -] [arg] ...
Try `python -h' for more information.