Файловая система AWS EMR s3a не найдена - PullRequest
0 голосов
/ 29 сентября 2018

Я запускаю экземпляр EMR, он работал нормально, внезапно он начал выдавать ошибку ниже, когда я пытаюсь получить доступ к файлам s3 из скрипта Python:

py4j.protocol.Py4JJavaError: An error occurred while calling o36.json.

: java.lang.RuntimeException: java.lang.ClassNotFoundException: класс org.apache.hadoop.fs.s3a.S3AFileSystem не найден

Как мы можем решить эту проблему?

Заранее спасибо.

Ответы [ 2 ]

0 голосов
/ 01 октября 2018

Это была проблема с зависимостями искры.Мне пришлось добавить конфигурацию jars в park-defaults.conf.

spark.jars.packages                com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.2

Пожалуйста, перейдите по ссылке ниже: https://gist.github.com/eddies/f37d696567f15b33029277ee9084c4a0

0 голосов
/ 01 октября 2018

Для Amazon EMR используйте префикс "s3:".Разъем S3A является открытым источником ASF;У Amazon есть собственный (закрытый) коннектор, единственный поддерживаемый ими

...