Как отправить искровую работу с zip, имеющим main.py - PullRequest
0 голосов
/ 14 июня 2019

Я хочу отправить EMR-задание с zip-файлом и zip-файлом, содержащим основной файл, скажем main.py

zip-файл находится в папке AWS S3.

как использовать main.py при отправке задания.

spark-submit --py-files s3://test/spark_test/Test.zip --files s3://test/spark_test/Test.zip/spark_main.py

Получение:

Exception in thread "main" java.io.FileNotFoundException: File s3://test/spark_test/Test.zip/spark_main.py does not exist.
        at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.listStatus(S3NativeFileSystem.java:990)
        at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.listStatus(S3NativeFileSystem.java:917)
        at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.listStatus(EmrFileSystem.java:373)
        at org.apache.spark.util.Utils$.fetchHcfsFile(Utils.scala:755)
        at org.apache.spark.util.Utils$.doFetchFile(Utils.scala:723)
        at org.apache.spark.deploy.DependencyUtils$.downloadFile(DependencyUtils.scala:136)
        at org.apache.spark.deploy.SparkSubmit$$anonfun$prepareSubmitEnvironment$7.apply(SparkSubmit.scala:367)
        at org.apache.spark.deploy.SparkSubmit$$anonfun$prepareSubmitEnvironment$7.apply(SparkSubmit.scala:367)
        at scala.Option.map(Option.scala:146)
        at org.apache.spark.deploy.SparkSubmit.prepareSubmitEnvironment(SparkSubmit.scala:366)
        at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:143)
        at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
        at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:924)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:933)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
...