Каков наилучший способ записи массивов NumPy в S3 непосредственно из спарка в виде отдельных файлов - PullRequest
0 голосов
/ 05 ноября 2018

У меня есть список массивов в памяти как часть RDD в приложении Spark. Я хочу сохранить каждый rdd (т.е. массивы содержимого) в виде отдельных файлов в s3. так что в s3 у меня будет файл .npy для каждого значения в СДР. Я не хочу создавать промежуточные файлы, потому что это замедлит работу приложения.

Я проверил этот пост как записать файл .npy непосредственно в s3? , Но когда я пытаюсь запустить это из AWS EMR в искровом приложении, я получаю следующие ошибки: -

OSError: [Errno [Errno 13] Permission denied: '/home/.config'] <function subimport at 0x7f87e0167320>: ('cottoncandy',)

    at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
    at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
    at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
    at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
    at org.apache.spark.scheduler.Task.run(Task.scala:108)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)

Как это решить?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...