Я новичок в использовании Spark и пытаюсь поиграть со Spark на моей локальной (windows) машине с помощью Jupyter Notebook
Я следовал нескольким учебникам по настройке переменных среды, а также по использованиюнесколько функций для этого через Python и cmd, и я не могу заставить работать какой-либо вводный код PySpark.
При запуске (в Jupyter Notebook, используя Python)
from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext('lcoal', 'Spark SQL')
ИЛИ
from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext('C:\spark\spark-2.4.3-bin-hadoop2.7', 'Spark SQL')
Я получаю сообщение об ошибке:
FileNotFoundError: [WinError 2] The system cannot find the file specified
Кроме того,
Я попытался использовать findspark и столкнулся с проблемой:
findspark.init()
OR
findspark.init("C:\spark\spark-2.4.3-bin-hadoop2.7")
Я получилошибка:
IndexError: list index out of range
Который из других постов этой темы заставил меня поверить, что переменная SPARK_HOME может быть установлена неправильно.
Переменные моей среды следующие: Моя искрабыл извлечен здесь: C: \ spark \ spark-2.4.3-bin-hadoop2.7
HADOOP_HOME: C: \ spark \ spark-2.4.3-bin-hadoop2.7 SPARK_HOME: C: \ spark\ spark-2.4.3-bin-hadoop2.7 JAVA_HOME: C: \ Program Files \ Java \ jdk1.8.0_201
Все они, включая% SPARK_HOME% \ bin, были добавлены в мою переменную PATH.
Наконец, когда я cmd> cd% SPARK_HOME%, он корректно приводит меня в нужный каталог, \ spark \ spark-2.4.3-bin-hadoop2.7
Насколько я вижу, с моими переменными среды нет проблем, поэтому я не уверен, почему pyspark через блокнот Juputer не может найти мой spark_home (или, возможно, это не проблема).
Буду признателен за любую помощь!
Спасибо!