Я следовал этому учебнику , чтобы установить pyspark на мой компьютер с Windows, чтобы я мог практиковаться с ним.Я запускаю pyspark --master local[2]
, чтобы запустить ноутбук Juypter, где я могу запускать pyspark, используя 2 кластера на моей локальной машине.В Jupyter я использую код, приведенный в руководстве.
инициализация искры в записной книжке Jupyter:
sc = SparkContext.getOrCreate()
sc.version
>> '2.3.3'
## I conclude from this that PySpark 2.3.3. "works"
Создайте пример данных:
import numpy as np
dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(1000000)]).cache()
dots.count()
Я получаюследующая ошибка
---------------------------------------------------------------------------
Py4JJavaError Traceback (most recent call last)
<ipython-input-4-0be12b3b7770> in <module>
4 dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(TOTAL)]).cache()
5
----> 6 dots.count()