Как я могу запускать команды spark-submit с помощью оператора искры GCP в кубернетах - PullRequest
0 голосов
/ 07 мая 2020

У меня есть приложение Spark, которое я хочу развернуть на кубернетах с помощью оператора GCP Spark https://github.com/GoogleCloudPlatform/spark-on-k8s-operator. Мне удалось запустить приложение Spark с помощью команды kubectl apply -f example.yaml, но я хочу использовать команды spark-submit.

Ответы [ 2 ]

0 голосов
/ 20 июня 2020

Невозможно напрямую управлять командой spark-submit, которую генерирует оператор spark, когда он переводит файл конфигурации yaml в параметры c spec и ресурсы kubernetes. Это своего рода смысл использования оператора. Он позволяет использовать файл конфигурации yaml для запуска SparkApplication или ScheduledSparkApplication, как если бы это был ресурс kubernetes. Большинство параметров можно установить либо с помощью файлов конфигурации had oop или spark в картах конфигурации, либо в качестве аргументов командной строки для jvm в модулях драйвера и исполнителя. Я рекомендую использовать этот последний подход для большей гибкости при точной настройке искровых заданий

0 голосов
/ 07 мая 2020

Есть несколько вариантов, упомянутых https://github.com/big-data-europe/docker-spark, которые можно использовать, чтобы посмотреть, решит ли это вашу проблему

kubectl run spark-base --rm -it --labels="app=spark-client" --image bde2020/spark-base:2.4.5-hadoop2.7 -- bash ./spark/bin/spark-shell --master spark://spark-master:7077 --conf spark.driver.host=spark-client

или

kubectl run spark-base --rm -it --labels="app=spark-client" --image bde2020/spark-base:2.4.5-hadoop2.7 -- bash ./spark/bin/spark-submit --class CLASS_TO_RUN --master spark://spark-master:7077 --deploy-mode client --conf spark.driver.host=spark-client URL_TO_YOUR_APP
...