WindowsError: [Ошибка 2] Системе не удается найти указанный файл - pyspark - PullRequest
0 голосов
/ 14 сентября 2018

Гея!Я сталкиваюсь с ошибкой FileNotFound на pycharm при запуске этого кода:

import findspark
findspark.init("C:\\Users\\user\\spark-2.3.0-bin-hadoop2.7")

from pyspark import SparkConf 
from pyspark.sql import SparkSession

conf = SparkConf().setAppName('Fresh-Fish')  
spark = SparkSession.builder.config(conf=conf).getOrCreate()

Я пробовал несколько предложенных способов ее решения, но безуспешно.Я использую Windows 8.1 Pro.

Traceback (most recent call last):
  File "C:/Users/user/PycharmProjects/spark-project/spark1.py", line 8, in <module>
    spark = SparkSession.builder.config(conf=conf).getOrCreate()
  File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\sql\session.py", line 173, in getOrCreate
    sc = SparkContext.getOrCreate(sparkConf)
  File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\context.py", line 331, in getOrCreate
    SparkContext(conf=conf or SparkConf())
  File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\context.py", line 115, in __init__
    SparkContext._ensure_initialized(self, gateway=gateway, conf=conf)
  File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\context.py", line 280, in _ensure_initialized
    SparkContext._gateway = gateway or launch_gateway(conf)
  File "C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\pyspark\java_gateway.py", line 80, in launch_gateway
    proc = Popen(command, stdin=PIPE, env=env)
  File "C:\Python27\lib\subprocess.py", line 390, in __init__
    errread, errwrite)
  File "C:\Python27\lib\subprocess.py", line 640, in _execute_child
    startupinfo)

WindowsError: [Error 2] The system cannot find the file specified

Process finished with exit code 1    

Мои системные переменные:

SPARK_HOME = C:\Users\user\spark-2.3.0-bin-hadoop2.7
HADOOP_HOME = C:\hadoop  #hadoop folder contains bin folder and bin folder contains winutils.exe
PATH = C:\Program Files (x86)\Common Files\Oracle\Java\javapath;C:\Program Files\Java\jre1.8.0_171\bin;C:\Python27;%SPARK_HOME%\bin;%JAVA_HOME%\bin;%HADOOP_HOME%\bin
JAVA_HOME = C:\Program Files\Java\jdk1.8.0_161

Я также пытался указать python.exe из новой переменной самостоятельно, например:

PYSPARK_HOME = C:\Python27

Или даже добавьте определенные пути к интерпретатору проекта Pycharm, указывающие на:

C:\Users\user\spark-2.3.0-bin-hadoop2.7\python
"C:\Users\user\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip"    

, но это не сработало

Два снимка экрана из Pycharm:

Структура проекта Pycharm

Проект переводчика Pycharm

Если вам нужна дополнительная информация, я с удовольствием предоставлю.Я боролся уже несколько дней, любые новые идеи приветствуются!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...