Question

РЕДАКТИРОВАТЬ: Этот вопрос заключался в том, как вы должны определить параметры для файла python / jupyetr-notebook, чтобы выполнить отправку искры в кластере EMR Amazon Spark ...

* 1002 мои тупые вопросы, но я довольно новичок ie, и я застрял в этом вопросе на пару дней, и, похоже, в Интернете нет хорошего руководства. Я прохожу курс Udacity Spark. Я создал кластер Spark Yarn на Amazon AWS (EMR) с одним главным и 3 подчиненными устройствами. Кроме того, я создал блокнот jupyter (и смог запустить и увидеть результат, используя ядро PySpark). Я подключился с помощью PuttY к кластеру (я думаю, к главному узлу), я загрузил записную книжку jupyter на локальный компьютер. Однако, когда я пытаюсь запустить его, я постоянно сталкиваюсь со многими типами ошибок. В настоящее время я запускаю следующие команды:

/usr/bin/spark-submit --class "org.apache.spark.examples.SparkPi" --master yarn --deploy-mode cluster ./my-test-emr.ipynb 1>output-my-test-emr.log 2>error-my-test-emr.log
aws s3 cp ./error-my-test-emr.log s3://aws-emr-resources-750982214328-us-east-2/notebooks/e-8TP55R4K894W1BFRTNHUGJ90N/error-my-test-emr.log

Я создал и файл ошибок, и блокнот jupyter publi c, чтобы вы могли их увидеть ( ссылка ). Я действительно подозреваю, что параметр --class (я в значительной степени догадался, и я читал об этом как о варианте решения своих проблем, но никакой дополнительной информации не было предоставлено), может ли кто-нибудь дать мне объяснение, что это такое? Зачем нам это нужно? А как мне узнать / установить истинное значение? Если у кого-то есть желание, было бы полезно дальнейшее объяснение JAR - зачем мне превращать мою программу python в java? И как мне это сделать? Похоже, что здесь было задано много вопросов, но никто не объясняет это из root ...

Заранее спасибо

srikanth holur · Answer 1 · 13 июля 2020

Экспортируйте записную книжку как файл .py.
Вам не нужно указывать --class для сценария python.
Вам не нужно конвертировать python код для java / scala.
Если у вас есть файл .py с некоторым именем, скажем test.py, он будет работать

spark-submit --master yarn --deploy-mode cluster ./test.py

user2230605 · Answer 2 · 10 июля 2020

Когда вы имеете в виду локально, какую версию Spark вы загрузили и откуда?

Обычно, когда я настраиваю Spark на своем ноутбуке, я просто запускаю команду ниже, чтобы запустить пример Spark Pi

spark-submit --class org.apache.spark.examples.SparkPi --master yarn \
--deploy-mode client SPARK_HOME/lib/spark-examples.jar 10

Где SPARK_HOME - это папка, в которую вы распаковываете архив с сайта Spark .

Как запустить блокнот jupyter на кластере Spark EMR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как запустить блокнот jupyter на кластере Spark EMR

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы