Отправка аргументов работы в Spark Job в Dataproc - PullRequest
1 голос
/ 29 апреля 2020

Попытка запустить Spark-Wiki-Parser в кластере GCP Datapro c. Код принимает два аргумента: «dumpfile» и «destlo c». Когда я отправляю следующее, я получаю [scallop] Error: Excess arguments provided: 'gs://enwiki-latest-pages-articles.xml.bz2 gs://output_dir/'.

gcloud dataproc jobs submit spark --cluster $CLUSTER_NAME --project $CLUSTER_PROJECT \
--class 'com.github.nielsenbe.sparkwikiparser.wikipedia.sparkdbbuild.DatabaseBuildMain' \
--properties=^#^spark.jars.packages='com.databricks:spark-xml_2.11:0.5.0,com.github.nielsenbe:spark-wiki-parser_2.11:1.0' \
--region=$CLUSTER_REGION \
-- 'gs://enwiki-latest-pages-articles.xml.bz2' 'gs://output_dir/'

Как мне получить код для распознавания входных аргументов?

1 Ответ

0 голосов
/ 29 апреля 2020

Кажется, что Scala классу нужен dumpfile и destlo c в качестве аргументов. Не могли бы вы вместо этого выполнить следующую команду и попробовать, если она работает?

gcloud dataproc jobs submit spark --cluster $CLUSTER_NAME --project $CLUSTER_PROJECT \
--class 'com.github.nielsenbe.sparkwikiparser.wikipedia.sparkdbbuild.DatabaseBuildMain' \
--properties=^#^spark.jars.packages='com.databricks:spark-xml_2.11:0.5.0,com.github.nielsenbe:spark-wiki-parser_2.11:1.0' \
--region=$CLUSTER_REGION \
-- dumpfile gs://enwiki-latest-pages-articles.xml.bz2 destloc gs://output_dir/
...