Spark-Submit с файлом Pyspark. - PullRequest
0 голосов
/ 26 ноября 2018

Я пытаюсь протестировать программу TensorflowOnSpark в кластере.Я думаю, что я использую неправильную команду spark-submit.Пожалуйста, посмотрите ниже

Я попытался отправить задание, как показано

~]$ spark-submit mnistOnSpark.py --cluster_size 10

Вышеуказанное задание выполнено успешно, но выполняется на одном узле, и Исполнитель, и драйвер находятся на та же машина .Но мне нужно, чтобы задание выполнялось на нескольких узлах. Итак, я попробовал приведенную ниже команду

~]$ spark-submit --master yarn-cluster mnistOnSpark.py --cluster_size 10

Это правильная команда, которую я должен использовать для отправки задания, или что-нибудь еще, чему я должен научиться.

- cluster_size - аргумент командной строки для кода mnistOnSpark.py.

Ответы [ 2 ]

0 голосов
/ 26 ноября 2018

Если вы выполняете задание на кластере пряжи, вы можете выполнить следующую команду:

spark-submit --master yarn --jars <comma-separated-jars> --conf <spark-properties> --name <job_name> <python_file> <argument 1> <argument 2>

например:

spark-submit --master yarn --jars example.jar --conf spark.executor.instances=10 --name example_job example.py arg1 arg2

Для mnistOnSpark.py вы должны передать аргументы, как указано вКоманда выше.

spark submit думает, что вы пытаетесь передать --cluster_mode на работу spark.

0 голосов
/ 26 ноября 2018

Попробуйте это:

spark-submit --master yarn --deploy-mode cluster --num-executors 10 --executors-cores 2 mnistOnSpark.py
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...