Я пытаюсь изменить промежуточный каталог Spark, чтобы предотвратить потерю данных при выводе рабочих из эксплуатации (в gataproc с Spark 2.4).
Я хочу переключить подготовку HDFS на подготовку Google Cloud Storage.
Когда я запускаю эту команду:
spark-submit --conf "spark.yarn.stagingDir=gs://my-bucket/my-staging/" gs://dataproc-examples-2f10d78d114f6aaec76462e3c310f31f/src/pyspark/hello-world/hello-world.py
У меня есть эта ошибка:
org.apache.spark.SparkException: приложение application_1560413919313_0056 не удалось 2 раза из-за того, что AM-контейнер для appattempt_1560413919313_0056_000002 завершен с exitCode: -1000
Неудачная попытка. Диагностика: [2019-06-20 07: 58: 04.462] Файл не найден: gs: /my-staging/.sparkStaging/application_1560413919313_0056/pyspark.zip
java.io.FileNotFoundException: файл не найден: gs: /my-staging/.sparkStaging/application_1560413919313_0056/pyspark.zip
Задание Spark не выполнено, но в GCS создан каталог .sparkStaging/
.
Есть идеи по этому вопросу?
Спасибо.