РЕДАКТИРОВАТЬ: Этот вопрос заключался в том, как вы должны определить параметры для файла python / jupyetr-notebook, чтобы выполнить отправку искры в кластере EMR Amazon Spark ...
* 1002 мои тупые вопросы, но я довольно новичок ie, и я застрял в этом вопросе на пару дней, и, похоже, в Интернете нет хорошего руководства. Я прохожу курс Udacity Spark. Я создал кластер Spark Yarn на Amazon AWS (EMR) с одним главным и 3 подчиненными устройствами. Кроме того, я создал блокнот jupyter (и смог запустить и увидеть результат, используя ядро PySpark). Я подключился с помощью PuttY к кластеру (я думаю, к главному узлу), я загрузил записную книжку jupyter на локальный компьютер. Однако, когда я пытаюсь запустить его, я постоянно сталкиваюсь со многими типами ошибок. В настоящее время я запускаю следующие команды:
/usr/bin/spark-submit --class "org.apache.spark.examples.SparkPi" --master yarn --deploy-mode cluster ./my-test-emr.ipynb 1>output-my-test-emr.log 2>error-my-test-emr.log
aws s3 cp ./error-my-test-emr.log s3://aws-emr-resources-750982214328-us-east-2/notebooks/e-8TP55R4K894W1BFRTNHUGJ90N/error-my-test-emr.log
Я создал и файл ошибок, и блокнот jupyter publi c, чтобы вы могли их увидеть ( ссылка ). Я действительно подозреваю, что параметр --class (я в значительной степени догадался, и я читал об этом как о варианте решения своих проблем, но никакой дополнительной информации не было предоставлено), может ли кто-нибудь дать мне объяснение, что это такое? Зачем нам это нужно? А как мне узнать / установить истинное значение? Если у кого-то есть желание, было бы полезно дальнейшее объяснение JAR - зачем мне превращать мою программу python в java? И как мне это сделать? Похоже, что здесь было задано много вопросов, но никто не объясняет это из root ...
Заранее спасибо