Я пытаюсь запустить следующий код Python-
import findspark
findspark.init("C:\Python27\lib\site-packages\pyspark")
from pyspark import SparkContext
sc = SparkContext(master="local[4]")
print(sc)
A=sc.parallelize(range(3))
L=A.collect()
print(type(L))
print(L)
A.map(lambda x: x*x).collect()
Однако это выдает мне ошибку-
Traceback (most recent call last):
File "C:/Python27/Scripts/tests_0115.py", line 15, in <module>
A.map(lambda x: x*x).collect()
File "C:\Python27\lib\site-packages\pyspark\rdd.py", line 816, in collect
sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd())
File "C:\Python27\lib\site-packages\pyspark\python\lib\py4j-0.10.7-
src.zip\py4j\java_gateway.py", line 1257, in __call__
answer, self.gateway_client, self.target_id, self.name)
File "C:\Python27\lib\site-packages\pyspark\python\lib\py4j-0.10.7-
src.zip\py4j\protocol.py", line 328, in get_return_value
format(target_id, ".", name), value)
Это главная ошибка -
Py4JJavaError: An error occurred while calling
z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 3
in stage 1.0 failed 1 times, most recent failure: Lost task 3.0 in stage 1.0
(TID 7, localhost, executor driver): org.apache.spark.SparkException: Python
worker failed to connect back.
Когда я пытаюсь использовать команду Reduce, появляется тот же тип ошибки.
Дайте мне знать, если что-нибудь можно сделать.