Pyspark: как настроить SparkContext, запустив только мастер? - PullRequest
0 голосов
/ 02 мая 2020

Я новичок в spark и pyspark

Я работаю в кластере с мастером и 2 работниками.

Я бы хотел настроить SparkContext, который работать только с мастером, так как 2 рабочих не доступны.

Как я могу настроить его? Это то, что я делаю.

import findspark
findspark.init('/usr/lib/spark/')
import pyspark 
sc = SparkContext()
spark = SparkSession(sc)

но я получаю ошибку.

Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.
: org.apache.hadoop.hdfs.server.namenode.SafeModeException: 

1 Ответ

1 голос
/ 02 мая 2020

Попробуйте установить мастер на локальный вместо использования Spark, Mesos или Yarn url. Установите master на local для запуска с одним потоком или local [N] с N числом потоков. например, если установить master на local [2], он создаст два потока для обработки данных на локальном компьютере.

conf = SparkConf().setAppName(appName).setMaster("local[2]")
sc = SparkContext(conf=conf)

А по поводу ошибки, это другой вопрос. Похоже, ваш узел имени работает в безопасном режиме. Вот почему вы видите ошибку. Приведите ваше имя узла в норму.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...