Гея!Я сталкиваюсь с ошибкой FileNotFound на pycharm при запуске этого кода:
import findspark
findspark.init("C:\\Users\\user\\spark-2.3.0-bin-hadoop2.7")
from pyspark import SparkConf
from pyspark.sql import SparkSession
conf = SparkConf().setAppName('Fresh-Fish')
spark = SparkSession.builder.config(conf=conf).getOrCreate()
Я пробовал несколько предложенных способов ее решения, но безуспешно.Я использую Windows 8.1 Pro.
Traceback (most recent call last):
File "C:/Users/user/PycharmProjects/spark-project/spark1.py", line 8, in <module>
spark = SparkSession.builder.config(conf=conf).getOrCreate()
File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\sql\session.py", line 173, in getOrCreate
sc = SparkContext.getOrCreate(sparkConf)
File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\context.py", line 331, in getOrCreate
SparkContext(conf=conf or SparkConf())
File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\context.py", line 115, in __init__
SparkContext._ensure_initialized(self, gateway=gateway, conf=conf)
File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\context.py", line 280, in _ensure_initialized
SparkContext._gateway = gateway or launch_gateway(conf)
File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\java_gateway.py", line 80, in launch_gateway
proc = Popen(command, stdin=PIPE, env=env)
File "C:\Python27\lib\subprocess.py", line 390, in __init__
errread, errwrite)
File "C:\Python27\lib\subprocess.py", line 640, in _execute_child
startupinfo)
WindowsError: [Error 2] The system cannot find the file specified
Process finished with exit code 1
Мои системные переменные:
SPARK_HOME = C:\Users\user\spark-2.3.0-bin-hadoop2.7
HADOOP_HOME = C:\hadoop #hadoop folder contains bin folder and bin folder contains winutils.exe
PATH = C:\Program Files (x86)\Common Files\Oracle\Java\javapath;C:\Program Files\Java\jre1.8.0_171\bin;C:\Python27;%SPARK_HOME%\bin;%JAVA_HOME%\bin;%HADOOP_HOME%\bin
JAVA_HOME = C:\Program Files\Java\jdk1.8.0_161
Я также пытался указать python.exe из новой переменной самостоятельно, например:
PYSPARK_HOME = C:\Python27
Или даже добавьте определенные пути к интерпретатору проекта Pycharm, указывающие на:
C:\Users\user\spark-2.3.0-bin-hadoop2.7\python
"C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip"
, но это не сработало
Два снимка экрана из Pycharm:
Структура проекта Pycharm
Проект переводчика Pycharm
Если вам нужна дополнительная информация, я с удовольствием предоставлю.Я боролся уже несколько дней, любые новые идеи приветствуются!