SparkException: Python рабочий не смог подключиться обратно при выполнении искры - PullRequest
0 голосов
/ 29 марта 2020

Когда я пытаюсь выполнить эту командную строку в pyspark

arquivo = sc.textFile("dataset_analise_sentimento.csv")

, я получаю следующее сообщение об ошибке:

Py4JJavaError: An error occurred while calling z:
org.apache.spark.api.python.PythonRDD.runJob.: 
org.apache.spark.SparkException: Job aborted due to stage failure: 
Task 0 in stage 0.0 failed 1 times, most recent failure:
Lost task 0.0 in stage 0.0 (TID 0, localhost, executor driver):
org.apache.spark.SparkException: Python worker failed to connect back.

Я пробовал следующие шаги:

  • Проверка переменных среды.
  • Проверка Apache Установка Spark на Windows 10 шагов.
  • Использование разных версий Apache Spark (пробовал 2.4.3 / 2.4.2 / 2.3.4).
  • Отключить брандмауэр windows и установленный мной антивирус.
  • Попытка инициализировать SparkContext вручную с помощью sc = spark.sparkContext (это возможное решение найдено на this вопрос здесь, в Stackoverflow, у меня не работает).
  • Попытка изменить значение PYSPARK_DRIVER_PYTHON с jupyter на ipython, как сказано в этой ссылке , безуспешно.

Ни один из вышеперечисленных шагов не помог мне, и я не могу найти решение.

На самом деле я использую следующие версии:

Python 3.7.3, Java JDK 11.0.6, Windows 10, Apache Spark 2.3.4

1 Ответ

0 голосов
/ 04 апреля 2020

Я просто настраиваю следующие переменные окружения, и теперь они работают нормально:

  • HADOOP_HOME = C:\Hadoop
  • JAVA_HOME = C:\Java\jdk-11.0.6
  • PYSPARK_DRIVER_PYTHON = jupyter
  • PYSPARK_DRIVER_PYTHON_OPTS = notebook
  • PYSPARK_PYTHON = python

На самом деле я использую следующие версии:

Python 3.7.3, Java JDK 11.0 .6, Windows 10, Apache Spark 2.4.3 и использование Jupyter Notebook с pyspark.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...