Аргументы Dataproc не читаются при отправке - PullRequest
2 голосов
/ 10 июня 2019

Я использую dataproc для отправки работ на спарк. Однако при искровой подаче неискровые аргументы читаются как искровые аргументы!

Я получаю сообщение об ошибке / предупреждение ниже при выполнении определенного задания.

Warning: Ignoring non-spark config property: dataproc:dataproc.conscrypt.provider.enable=false

gcloud dataproc jobs submit spark \
--cluster my-cluster \
--region us-east1 \
--properties dataproc:dataproc.conscrypt.provider.enable=false,spark.executor.extraJavaOptions=$SPARK_CONF,spark.executor.memory=${MEMORY}G,spark.executor.cores=$total_cores \
--class com.sample.run \
--jars gs://jars/jobs.jar \
-- 1000

Я хотел бы знать, что не так с моим текущим форматом. Заранее спасибо.

1 Ответ

3 голосов
/ 10 июня 2019

spark-submit просто молча игнорировал параметры conf, которые не начинались с spark. вот почему это свойство было сказано, что оно было проигнорировано.

--properties dataproc:dataproc.conscrypt.provider.enable=false

любое свойство, которое вы должны передать как spark. propertyname

это просто предупреждение.

Зачем нужна эта недвижимость:

Поставщик безопасности Conscrypt был временно изменен с по умолчанию для дополнительного поставщика безопасности. Это изменение было сделано из-за несовместимость с некоторыми рабочими нагрузками. Поставщик Conscrypt будет повторно включен по умолчанию с выпуском Cloud Dataproc 1.2 в будущее. В то же время, вы можете снова включить поставщика Conscrypt при создании кластера, указав это свойство Cloud Dataproc:

--properties dataproc:dataproc.conscrypt.provider.enable=true Это необходимо указать при создании кластера, так как это свойство кластера, а не свойство spark. (означает, что рамки искры не могут этого понять и просто игнорируются.)

Пример использования:

gcloud beta dataproc clusters create my-test
--project my-project
--subnet prod-sub-1
--zone southamerica-east1-a
--region=southamerica-east1
--master-machine-type n1-standard-4
--master-boot-disk-size 40
--num-workers 5
--worker-machine-type n1-standard-4
--worker-boot-disk-size 20
--image-version 1.2
--tags internal,ssh,http-server,https-server
--properties dataproc:dataproc.conscrypt.provider.enable=false
--format=json
--max-idle=10m

и затем начинайте работу вот так ...

gcloud dataproc jobs submit pyspark gs://path-to-script/spark_full_job.py
--cluster=my-test
--project=my-project
--region=southamerica-east1
--jars=gs://path-to-driver/mssql-jdbc-6.4.0.jre8.jar
--format=json -- [JOB_ARGS]
...