совместимые с pyspark hadoop aws и aws adk для версии 2.4.4 - PullRequest
0 голосов
/ 23 сентября 2019

Я пытаюсь читать и писать из блоков s3 с помощью pyspark с помощью этих двух библиотек из maven https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/2.7.7 и https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk/1.7.4, которые действительно старые.Я пробовал с различными комбинациями hadoop-aws и aws-java-SDK, но он не работает с pyspark версии 2.4.4.кто-нибудь знает, какие версии Hadoop и java SDK совместимы с искровой версией 2.4.4?

1 Ответ

0 голосов
/ 24 сентября 2019

Я использую следующее:

Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11

Работает для меня и использовать s3a://bucket-name/

( Примечание : Для PySPark я использовал aws-java-sdk-1.7.4.jar), потому чтоЯ не смог использовать

df.write.csv(path=path, mode="overwrite", compression="None")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...