У меня есть список массивов в памяти как часть RDD в приложении Spark. Я хочу сохранить каждый rdd (т.е. массивы содержимого) в виде отдельных файлов в s3. так что в s3 у меня будет файл .npy для каждого значения в СДР. Я не хочу создавать промежуточные файлы, потому что это замедлит работу приложения.
Я проверил этот пост как записать файл .npy непосредственно в s3?
, Но когда я пытаюсь запустить это из AWS EMR в искровом приложении, я получаю следующие ошибки: -
OSError: [Errno [Errno 13] Permission denied: '/home/.config'] <function subimport at 0x7f87e0167320>: ('cottoncandy',)
at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:108)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
Как это решить?