Как запустить блокнот jupyter на кластере Spark EMR - PullRequest
1 голос
/ 10 июля 2020

РЕДАКТИРОВАТЬ: Этот вопрос заключался в том, как вы должны определить параметры для файла python / jupyetr-notebook, чтобы выполнить отправку искры в кластере EMR Amazon Spark ...

* 1002 мои тупые вопросы, но я довольно новичок ie, и я застрял в этом вопросе на пару дней, и, похоже, в Интернете нет хорошего руководства. Я прохожу курс Udacity Spark. Я создал кластер Spark Yarn на Amazon AWS (EMR) с одним главным и 3 подчиненными устройствами. Кроме того, я создал блокнот jupyter (и смог запустить и увидеть результат, используя ядро ​​PySpark). Я подключился с помощью PuttY к кластеру (я думаю, к главному узлу), я загрузил записную книжку jupyter на локальный компьютер. Однако, когда я пытаюсь запустить его, я постоянно сталкиваюсь со многими типами ошибок. В настоящее время я запускаю следующие команды:
/usr/bin/spark-submit --class "org.apache.spark.examples.SparkPi" --master yarn --deploy-mode cluster ./my-test-emr.ipynb 1>output-my-test-emr.log 2>error-my-test-emr.log
aws s3 cp ./error-my-test-emr.log s3://aws-emr-resources-750982214328-us-east-2/notebooks/e-8TP55R4K894W1BFRTNHUGJ90N/error-my-test-emr.log

Я создал и файл ошибок, и блокнот jupyter publi c, чтобы вы могли их увидеть ( ссылка ). Я действительно подозреваю, что параметр --class (я в значительной степени догадался, и я читал об этом как о варианте решения своих проблем, но никакой дополнительной информации не было предоставлено), может ли кто-нибудь дать мне объяснение, что это такое? Зачем нам это нужно? А как мне узнать / установить истинное значение? Если у кого-то есть желание, было бы полезно дальнейшее объяснение JAR - зачем мне превращать мою программу python в java? И как мне это сделать? Похоже, что здесь было задано много вопросов, но никто не объясняет это из root ...

Заранее спасибо

Ответы [ 2 ]

1 голос
/ 13 июля 2020
  1. Экспортируйте записную книжку как файл .py.
  2. Вам не нужно указывать --class для сценария python.
  3. Вам не нужно конвертировать python код для java / scala.
  4. Если у вас есть файл .py с некоторым именем, скажем test.py, он будет работать
spark-submit --master yarn --deploy-mode cluster ./test.py

0 голосов
/ 10 июля 2020

Когда вы имеете в виду локально, какую версию Spark вы загрузили и откуда?

Обычно, когда я настраиваю Spark на своем ноутбуке, я просто запускаю команду ниже, чтобы запустить пример Spark Pi

spark-submit --class org.apache.spark.examples.SparkPi --master yarn \
--deploy-mode client SPARK_HOME/lib/spark-examples.jar 10

Где SPARK_HOME - это папка, в которую вы распаковываете архив с сайта Spark .

...