pyspark на локальном кластере не может вызвать любую команду - PullRequest
0 голосов
/ 24 апреля 2019

Я следовал этому учебнику , чтобы установить pyspark на мой компьютер с Windows, чтобы я мог практиковаться с ним.Я запускаю pyspark --master local[2], чтобы запустить ноутбук Juypter, где я могу запускать pyspark, используя 2 кластера на моей локальной машине.В Jupyter я использую код, приведенный в руководстве.

инициализация искры в записной книжке Jupyter:

sc = SparkContext.getOrCreate()
sc.version
>> '2.3.3' 
## I conclude from this that PySpark 2.3.3. "works"

Создайте пример данных:

import numpy as np
dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(1000000)]).cache()
dots.count()

Я получаюследующая ошибка

---------------------------------------------------------------------------
Py4JJavaError                             Traceback (most recent call last)
<ipython-input-4-0be12b3b7770> in <module>
      4 dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(TOTAL)]).cache()
      5 
----> 6 dots.count()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...