Проблемы с подключением к удаленной автономной Spark через Jupyter с использованием pyspark - PullRequest
0 голосов
/ 20 января 2020

Проблема с ядром

Невозможно подключиться к свече зажигания удаленно из pyspark / jupyter

Моя настройка

У меня есть Spark настроен в автономном режиме на экземпляре EC2.

У меня установлена ​​Spark на моем ноутбуке, и я могу успешно получить доступ и подключиться к Spark локально, используя pyspark от Jupyter.

Произошла ошибка

Когда Глядя в рабочий интерфейс искры на работника, я вижу в журналах следующую ошибку

20/01/20 00:14:34 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users  with view permissions: Set(ubuntu, myuser); groups with view permissions: Set(); users  with modify permissions: Set(ubuntu, myuser); groups with modify permissions: Set()
Exception in thread "main" java.lang.reflect.UndeclaredThrowableException
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1713)
    at org.apache.spark.deploy.SparkHadoopUtil.runAsSparkUser(SparkHadoopUtil.scala:64)
    at org.apache.spark.executor.CoarseGrainedExecutorBackend$.run(CoarseGrainedExecutorBackend.scala:188)
    at org.apache.spark.executor.CoarseGrainedExecutorBackend$.main(CoarseGrainedExecutorBackend.scala:281)
    at org.apache.spark.executor.CoarseGrainedExecutorBackend.main(CoarseGrainedExecutorBackend.scala)
Caused by: org.apache.spark.SparkException: Exception thrown in awaitResult: 

Используемый код

Ниже python Я работаю от jupyter

import findspark
findspark.init()
findspark.find()

import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder.master('spark://' + remote +':7077').appName('very-imaginative-app-name').getOrCreate()

numrdd = spark.sparkContext.parallelize([1,2,3]) # I can see it hang in the spark master UI here

numrdd.collect()

spark.stop()

(Remote - это IP-адрес удаленного мастера искры.)

Что я пробовал до сих пор

У меня есть попытался запустить этот код за пределами Jupyter в Atom. Возникает следующая ошибка

20/01/20 00:01:15 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

Это может означать, что либо работник не работает, либо ресурсы малы. Работник был запущен, и даже попытка увеличить ресурсы для работника не имела значения.

Я подумал, что проблема в том, что пользователь myuser не был доступен на работающей искре EC2, поэтому я создал myuser пользователь, но это также не имеет значения.

Любая помощь будет отличной!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...