Какие банки необходимы для загрузки наборов данных из S3? - PullRequest
0 голосов
/ 07 июня 2018

Мы экспериментируем с загрузкой данных из Amazon S3 в кластер Spark 2.3, который настроен под управлением Mesosphere DC / OS.Когда мы запускаем код на оболочке spark, spark не распознает файловую систему S3:

File "/root/spark/spark-2.3.0-bin-hadoop2.7/python/lib/py4j-0.10.6-src.zip/py4j/protocol.py", line 320, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: java.io.IOException: No FileSystem for scheme: s3

Какие библиотеки / банки нам нужно вручную добавить в Spark, чтобы он распознал S3?

1 Ответ

0 голосов
/ 08 июня 2018

Вы можете прочитать его, используя 's3a: //' вместо s3.

...