Я очень новичок в Pyspark. Я использую Anaconda для выполнения кода Pyspark. Я пытаюсь инициировать SparkContext. Это выдает ошибку, указанную ниже. Похоже, эта ошибка вполне нормальна в Python, но я не могу понять в контексте Pyspark.
Код такой:
import findspark
findspark.init()
import pyspark
import random
import os
import sys
sc = pyspark.SparkContext(appName="Pi")
Просто выполнение этого вызывает ошибку, которая выглядит так:
---------------------------------------------------------------------------
UnboundLocalError Traceback (most recent call last)
<ipython-input-6-3fc08890af27> in <module>()
----> 1 sc = pyspark.SparkContext(appName="Pi")
C:\opt\spark\spark-2.3.0-bin-hadoop2.7\python\pyspark\context.py in __init__(self, master, appName, sparkHome, pyFiles, environment, batchSize, serializer, conf, gateway, jsc, profiler_cls)
113 """
114 self._callsite = first_spark_call() or CallSite(None, None, None)
--> 115 SparkContext._ensure_initialized(self, gateway=gateway, conf=conf)
116 try:
117 self._do_init(master, appName, sparkHome, pyFiles, environment, batchSize, serializer,
C:\opt\spark\spark-2.3.0-bin-hadoop2.7\python\pyspark\context.py in _ensure_initialized(cls, instance, gateway, conf)
278 with SparkContext._lock:
279 if not SparkContext._gateway:
--> 280 SparkContext._gateway = gateway or launch_gateway(conf)
281 SparkContext._jvm = SparkContext._gateway.jvm
282
C:\opt\spark\spark-2.3.0-bin-hadoop2.7\python\pyspark\java_gateway.py in launch_gateway(conf)
58 submit_args
59 ])
---> 60 command = command + shlex.split(submit_args)
61
62 # Start a socket that will be used by PythonGatewayServer to communicate its port to us
UnboundLocalError: local variable 'submit_args' referenced before assignment