Я пытаюсь проверить скорость выполнения в зависимости от количества рабочих.
from time import time
from pyspark import SparkContext
for j in range(1,10):
sc = SparkContext(master="local[%d]"%(j))
t0=time()
for i in range(10):
sc.parallelize([1,2]*1000000).reduce(lambda x,y:x+y)
print("%2d executors, time=%4.3f"%(j,time()-t0))
sc.stop()
Как только тест будет выполнен на двух числах:
1 executors, time=15.886
2 executors, time=13.953
Тогда я получу Py4JJavaError
Информация: я используя анаконду и я уже установил java для анаконды используя conda install -c cyclus java-jdk