Чтение данных из S3 во фрейм данных Spark с использованием Scala - PullRequest
0 голосов
/ 09 июня 2018

Я пытаюсь прочитать данные из "s3: //fakePath/subFakePath/sub-sub-FakePath/*.gz" в искру, работающую на моем локальном компьютере.Я указываю fs.s3a.access.key "и" fs.s3a.secret.key "в моем коде scala, используя

SqlContext.read()

. У меня также есть hadoop-aws-2.7.1.jar в моемКлассовая ошибка*

Я просмотрел ответы на StackOverflow относительно этой проблемы, но это, похоже, не решает мою проблему. Я был бы очень признателен, если кто-то может указать мне на фрагмент, который я пропускаю, или не попал сюда.

1 Ответ

0 голосов
/ 10 июня 2018

Если вы используете сервисы Amazon EMR, вы не столкнетесь с этой проблемой, поскольку все jar-файлы будут добавлены в пути соответствующим образом.

Если не удалось создать экземпляр файловой системы s3a, s3n, s3, то это связано ск банкам aws-sdk не в пути.

Несколько часов исследования вот как это работает для меня,

. / spark-shell --master yarn-client --jars /usr/hdp/2.4.0.0-169/hadoop/hadoop-aws-2.7.1.2.4.0.0-169.jar,/usr/hdp/2.4.0.0-169/hadoop/hadoop-auth.jar, / usr / hdp / 2.4.0.0-169 / hadoop / aws-java-sdk-1.10.65.jar --driver-memory 512m --executor-memory 512m

Надеюсь, это поможет.

...