Ошибка findspark.init () - не удается правильно установить переменные среды SPARK_HOME - PullRequest
0 голосов
/ 02 июля 2019

Я новичок в использовании Spark и пытаюсь поиграть со Spark на моей локальной (windows) машине с помощью Jupyter Notebook

Я следовал нескольким учебникам по настройке переменных среды, а также по использованиюнесколько функций для этого через Python и cmd, и я не могу заставить работать какой-либо вводный код PySpark.

При запуске (в Jupyter Notebook, используя Python)

from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext('lcoal', 'Spark SQL') 

ИЛИ

from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext('C:\spark\spark-2.4.3-bin-hadoop2.7', 'Spark SQL') 

Я получаю сообщение об ошибке:

FileNotFoundError: [WinError 2] The system cannot find the file specified

Кроме того,

Я попытался использовать findspark и столкнулся с проблемой:

findspark.init()
OR
findspark.init("C:\spark\spark-2.4.3-bin-hadoop2.7")

Я получилошибка:

IndexError: list index out of range

Который из других постов этой темы заставил меня поверить, что переменная SPARK_HOME может быть установлена ​​неправильно.

Переменные моей среды следующие: Моя искрабыл извлечен здесь: C: \ spark \ spark-2.4.3-bin-hadoop2.7

HADOOP_HOME: C: \ spark \ spark-2.4.3-bin-hadoop2.7 SPARK_HOME: C: \ spark\ spark-2.4.3-bin-hadoop2.7 JAVA_HOME: C: \ Program Files \ Java \ jdk1.8.0_201

Все они, включая% SPARK_HOME% \ bin, были добавлены в мою переменную PATH.

Наконец, когда я cmd> cd% SPARK_HOME%, он корректно приводит меня в нужный каталог, \ spark \ spark-2.4.3-bin-hadoop2.7

Насколько я вижу, с моими переменными среды нет проблем, поэтому я не уверен, почему pyspark через блокнот Juputer не может найти мой spark_home (или, возможно, это не проблема).

Буду признателен за любую помощь!

Спасибо!

...